Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Flickr Image Dataset
Multimodal

Flickr Image Dataset

Un conjunto de datos multimodales que contiene imágenes de Flickr con subtítulos, entidades anotadas y áreas límite para el aprendizaje visual y lingüístico.

Obtén el dataset
Tamaño

31 800 imágenes, 158 000 subtítulos, 276 000 recuadros delimitadores: JPEG, CSV

Licencia

CC0: Dominio público

Descripción

El conjunto de datos Conjunto de imágenes de Flickr es un recurso multimodal basado en el conjunto de datos Flickr30k. Combina 31'800 imágenes con 158'000 títulos de texto, enriquecidos con más de 244'000 cadenas de correferencia y 276'000 recuadros delimitadores anotados manualmente. Es un juego de referencia para la generación de descripciones de imágenes, la alineación de imágenes y textos y las tareas de creación de bases visuales.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos para generar subtítulos de imágenes (subtítulos de imágenes)
  • Alinee entidades de texto y regiones visuales en la misma imagen (PNL fija)
  • Pruebe modelos multimodales sobre la comprensión conjunta de la imagen y el lenguaje

¿Se puede enriquecer o mejorar?

Sí. Es posible añadir anotaciones adicionales (relacionales, lingüísticas o visuales), introducir otros idiomas en las leyendas o aplicar técnicas de detección automática para compararlas con las anotaciones manuales. También se puede usar para entrenar previamente las arquitecturas de lenguajes de visión más recientes.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐☆☆ (Estructurado pero requiere procesamiento de imagen + texto)
🧼Limpieza necesaria ⭐⭐☆☆☆ (Baja a moderada según la tarea objetivo)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐☆ (Excelente: leyendas + entidades + cajas delimitadoras + correferencias)
📜Licencia comercial ✅ Sí (CC0)
👨‍💻Ideal para principiantes 👍 Moderado – se recomiendan conocimientos en multimodalidad
🔁Reutilizable para fine-tuning 🔥 Excelente base para CLIP, BLIP, Flamingo, etc.
🌍Diversidad cultural 🌍 Media: principalmente en inglés, pero contenido variado

🧠 Recomendado para

  • Investigadores multimodales
  • Desarrolladores de asistentes visuales
  • Estudiantes de visión e idiomas

🔧 Herramientas compatibles

  • Transformers Hugging Face
  • CLIP
  • OpenCV

💡 Consejo

Para la formación, agrupe entidades del mismo tipo y aplique incrustaciones cruzadas entre los cuadros delimitadores y los segmentos de texto.

Preguntas frecuentes

¿Se pueden usar imágenes y anotaciones para un proyecto comercial?

Sí, el conjunto de datos tiene la licencia CC0, lo que permite un uso comercial sin restricciones.

¿Es adecuado para los modelos CLIP o BLIP de entrenamiento?

Por supuesto, el conjunto de datos es rico en pares de imágenes y texto y anotaciones, lo que lo hace ideal para estas arquitecturas multimodales.

¿Las leyendas están en varios idiomas?

No, todas las descripciones están en inglés. Sin embargo, es posible generar traducciones automáticas para ampliar la cobertura lingüística.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.