Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Flickr30k Image‑Caption Dataset
Multimodal

Flickr30k Image‑Caption Dataset

Conjunto de datos multilingüe de más de 30 000 imágenes, cada una con 5 subtítulos escritos por anotadores, para entrenar modelos de visión y lenguaje.

Obtén el dataset
Tamaño

≈ 30 000 imágenes más anotaciones en CSV (subtítulos), ~4.43 GB

Licencia

CC0: dominio público

Descripción

El conjunto de datos Flickr30k proporciona más de 30 000 imágenes, cada una acompañada de 5 leyendas humanas. Las imágenes están alojadas en Flickr y las anotaciones están disponibles en formato CSV. Ideal para entrenar y evaluar modelos de generación de leyendas, VQA o lenguajes de visión.

¿Para qué sirve este conjunto de datos?

  • Generación de subtítulos de imágenes (subtítulos de imágenes)
  • Modelado con lenguaje visual y búsqueda de imágenes y texto
  • Respuesta visual a preguntas (VQA) o recuperación multimodal

¿Se puede enriquecer o mejorar?

Sí, al descargar las imágenes a través de sus URL, puede crear conjuntos locales. Es posible añadir anotaciones visuales (objetos, regiones) o volver a traducir leyendas a otros idiomas.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Anotaciones listas, descarga requerida para las imágenes)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – CSV bien formateado; gestión de URLs a prever)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (5 leyendas variadas por imagen, muy rico)
📜 Licencia comercial✅ CC0 – uso comercial permitido
👨‍💻 Ideal para principiantes✅ Sí – base clásica para multimodalidad Vietnam
🔁 Reutilizable para fine-tuning🖼️ Excelente para fine-tuning visión-lenguaje
🌍 Diversidad cultural🌐 Gran diversidad de escenas humanas cotidianas

🧠 Recomendado para

  • Investigadores de IA multimodal
  • Estudiantes de VQA
  • Ingenieros de lenguaje visual

🔧 Herramientas compatibles

  • PyTorch
  • TensorFlow
  • VilT

💡 Consejo

Descarga imágenes por lotes y guarda una instantánea local para evitar que desaparezcan en Flickr.

Preguntas frecuentes

¿Están las imágenes incluidas en el conjunto de datos?

Sí, se proporcionan en la versión «flickr30k-images» (~4,43 GB) en Kaggle.

¿Puedo usar este conjunto de datos comercialmente sin atribución?

Sí, la licencia CC0 permite el uso comercial sin requisitos de atribución.

¿Es posible volver a codificar las leyendas en otros idiomas?

Sí, los campos captions.csv se pueden traducir para crear versiones multilingües que mejoren el rendimiento del modelo.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.