Flickr30k Image‑Caption Dataset
Conjunto de datos multilingüe de más de 30 000 imágenes, cada una con 5 subtítulos escritos por anotadores, para entrenar modelos de visión y lenguaje.
≈ 30 000 imágenes más anotaciones en CSV (subtítulos), ~4.43 GB
CC0: dominio público
Descripción
El conjunto de datos Flickr30k proporciona más de 30 000 imágenes, cada una acompañada de 5 leyendas humanas. Las imágenes están alojadas en Flickr y las anotaciones están disponibles en formato CSV. Ideal para entrenar y evaluar modelos de generación de leyendas, VQA o lenguajes de visión.
¿Para qué sirve este conjunto de datos?
- Generación de subtítulos de imágenes (subtítulos de imágenes)
- Modelado con lenguaje visual y búsqueda de imágenes y texto
- Respuesta visual a preguntas (VQA) o recuperación multimodal
¿Se puede enriquecer o mejorar?
Sí, al descargar las imágenes a través de sus URL, puede crear conjuntos locales. Es posible añadir anotaciones visuales (objetos, regiones) o volver a traducir leyendas a otros idiomas.
🔎 En resumen
🧠 Recomendado para
- Investigadores de IA multimodal
- Estudiantes de VQA
- Ingenieros de lenguaje visual
🔧 Herramientas compatibles
- PyTorch
- TensorFlow
- VilT
💡 Consejo
Descarga imágenes por lotes y guarda una instantánea local para evitar que desaparezcan en Flickr.
Preguntas frecuentes
¿Están las imágenes incluidas en el conjunto de datos?
Sí, se proporcionan en la versión «flickr30k-images» (~4,43 GB) en Kaggle.
¿Puedo usar este conjunto de datos comercialmente sin atribución?
Sí, la licencia CC0 permite el uso comercial sin requisitos de atribución.
¿Es posible volver a codificar las leyendas en otros idiomas?
Sí, los campos captions.csv se pueden traducir para crear versiones multilingües que mejoren el rendimiento del modelo.