Flickr30k Image‑Caption Dataset

Conjunto de datos multilingüe de más de 30 000 imágenes, cada una con 5 subtítulos escritos por anotadores, para entrenar modelos de visión y lenguaje.

Obtén el dataset

Tamaño

≈ 30 000 imágenes más anotaciones en CSV (subtítulos), ~4.43 GB

Licencia

CC0: dominio público

Descripción

‍

El conjunto de datos Flickr30k proporciona más de 30 000 imágenes, cada una acompañada de 5 leyendas humanas. Las imágenes están alojadas en Flickr y las anotaciones están disponibles en formato CSV. Ideal para entrenar y evaluar modelos de generación de leyendas, VQA o lenguajes de visión.

‍

¿Para qué sirve este conjunto de datos?

‍

Generación de subtítulos de imágenes (subtítulos de imágenes)
Modelado con lenguaje visual y búsqueda de imágenes y texto
Respuesta visual a preguntas (VQA) o recuperación multimodal

‍

¿Se puede enriquecer o mejorar?

‍

Sí, al descargar las imágenes a través de sus URL, puede crear conjuntos locales. Es posible añadir anotaciones visuales (objetos, regiones) o volver a traducir leyendas a otros idiomas.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Anotaciones listas, descarga requerida para las imágenes)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – CSV bien formateado; gestión de URLs a prever)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (5 leyendas variadas por imagen, muy rico)
📜 Licencia comercial	✅ CC0 – uso comercial permitido
👨‍💻 Ideal para principiantes	✅ Sí – base clásica para multimodalidad Vietnam
🔁 Reutilizable para fine-tuning	🖼️ Excelente para fine-tuning visión-lenguaje
🌍 Diversidad cultural	🌐 Gran diversidad de escenas humanas cotidianas