Flickr Image Dataset

Un conjunto de datos multimodales que contiene imágenes de Flickr con subtítulos, entidades anotadas y áreas límite para el aprendizaje visual y lingüístico.

Obtén el dataset

Tamaño

31 800 imágenes, 158 000 subtítulos, 276 000 recuadros delimitadores: JPEG, CSV

Licencia

CC0: Dominio público

Descripción

‍

El conjunto de datos Conjunto de imágenes de Flickr es un recurso multimodal basado en el conjunto de datos Flickr30k. Combina 31'800 imágenes con 158'000 títulos de texto, enriquecidos con más de 244'000 cadenas de correferencia y 276'000 recuadros delimitadores anotados manualmente. Es un juego de referencia para la generación de descripciones de imágenes, la alineación de imágenes y textos y las tareas de creación de bases visuales.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos para generar subtítulos de imágenes (subtítulos de imágenes)
Alinee entidades de texto y regiones visuales en la misma imagen (PNL fija)
Pruebe modelos multimodales sobre la comprensión conjunta de la imagen y el lenguaje

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Es posible añadir anotaciones adicionales (relacionales, lingüísticas o visuales), introducir otros idiomas en las leyendas o aplicar técnicas de detección automática para compararlas con las anotaciones manuales. También se puede usar para entrenar previamente las arquitecturas de lenguajes de visión más recientes.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐☆☆ (Estructurado pero requiere procesamiento de imagen + texto)
🧼Limpieza necesaria	⭐⭐☆☆☆ (Baja a moderada según la tarea objetivo)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐☆ (Excelente: leyendas + entidades + cajas delimitadoras + correferencias)
📜Licencia comercial	✅ Sí (CC0)
👨‍💻Ideal para principiantes	👍 Moderado – se recomiendan conocimientos en multimodalidad
🔁Reutilizable para fine-tuning	🔥 Excelente base para CLIP, BLIP, Flamingo, etc.
🌍Diversidad cultural	🌍 Media: principalmente en inglés, pero contenido variado