MM-IMDb (conjunto de datos IMDb multimodal)
MM-IMDb (IMDb multimodal) es un conjunto de datos multimodal que combina información textual (resúmenes de películas), imágenes (pósters de películas) y etiquetas de género. Está diseñado para entrenar y evaluar modelos capaces de abordar varias modalidades en paralelo, en tareas de clasificación, recomendación o generación.
Más de 25 000 películas, con metadatos textuales, pósters (imágenes) y etiquetas multietiqueta (géneros)
Uso gratuito para investigación académica, bajo licencia MIT
Descripción
Para cada película, el conjunto de datos incluye:
- Un resumen textual (sinopsis de IMDb)
- Un póster en imagen (JPEG)
- Una lista de géneros (hasta 23 géneros posibles: drama, acción, comedia, etc.)
- Metadatos: título, fecha, duración, etc.
El conjunto de datos está estructurado para su uso en enfoques multimodales (texto e imagen), con divisiones estandarizadas para la capacitación, la validación y las pruebas.
¿Para qué sirve este conjunto de datos?
MM-IMDb se puede utilizar para:
- Formación de modelos de clasificación multimodal (póster + sinopsis → géneros)
- El desarrollo de sistemas de recomendación de películas
- La fusión de representaciones de texto e imágenes (incrustación múltiple)
- Análisis de la contribución respectiva del texto y la imagen a la clasificación
- La validación de arquitecturas como CLIP, ViLT o BERT multimodal
¿Se puede enriquecer o mejorar?
Sí:
- Agrega información sobre el reparto, los premios o las reseñas
- Imágenes completas con capturas de escenas (fotogramas)
- Introducir funciones de audio para el análisis trimodal
- Mejorar las etiquetas mediante el crowdsourcing o modelos de reetiquetado más recientes
🔗 Fuente: Conjunto de datos MM-IMDb en GitHub
Preguntas frecuentes
¿Se puede usar el conjunto de datos para probar CLIP o BLIP?
Sí, es un punto de referencia excelente para probar modelos de lenguaje de visión en la tarea de clasificación o alineación semántica.
¿Las imágenes tienen una calidad uniforme?
Los pósteres se extraen automáticamente de IMDb. Algunos pueden ser de calidad variable, pero por lo general permanecen limpios y utilizables.
¿El conjunto de datos es multilingüe?
Las sinopsis no están solo en inglés.