Flickr Image Dataset
Un conjunto de datos multimodales que contiene imágenes de Flickr con subtítulos, entidades anotadas y áreas límite para el aprendizaje visual y lingüístico.
31 800 imágenes, 158 000 subtítulos, 276 000 recuadros delimitadores: JPEG, CSV
CC0: Dominio público
Descripción
El conjunto de datos Conjunto de imágenes de Flickr es un recurso multimodal basado en el conjunto de datos Flickr30k. Combina 31'800 imágenes con 158'000 títulos de texto, enriquecidos con más de 244'000 cadenas de correferencia y 276'000 recuadros delimitadores anotados manualmente. Es un juego de referencia para la generación de descripciones de imágenes, la alineación de imágenes y textos y las tareas de creación de bases visuales.
¿Para qué sirve este conjunto de datos?
- Entrene modelos para generar subtítulos de imágenes (subtítulos de imágenes)
- Alinee entidades de texto y regiones visuales en la misma imagen (PNL fija)
- Pruebe modelos multimodales sobre la comprensión conjunta de la imagen y el lenguaje
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir anotaciones adicionales (relacionales, lingüísticas o visuales), introducir otros idiomas en las leyendas o aplicar técnicas de detección automática para compararlas con las anotaciones manuales. También se puede usar para entrenar previamente las arquitecturas de lenguajes de visión más recientes.
🔎 En resumen
🧠 Recomendado para
- Investigadores multimodales
- Desarrolladores de asistentes visuales
- Estudiantes de visión e idiomas
🔧 Herramientas compatibles
- Transformers Hugging Face
- CLIP
- OpenCV
💡 Consejo
Para la formación, agrupe entidades del mismo tipo y aplique incrustaciones cruzadas entre los cuadros delimitadores y los segmentos de texto.
Preguntas frecuentes
¿Se pueden usar imágenes y anotaciones para un proyecto comercial?
Sí, el conjunto de datos tiene la licencia CC0, lo que permite un uso comercial sin restricciones.
¿Es adecuado para los modelos CLIP o BLIP de entrenamiento?
Por supuesto, el conjunto de datos es rico en pares de imágenes y texto y anotaciones, lo que lo hace ideal para estas arquitecturas multimodales.
¿Las leyendas están en varios idiomas?
No, todas las descripciones están en inglés. Sin embargo, es posible generar traducciones automáticas para ampliar la cobertura lingüística.