MM-IMDb (conjunto de datos IMDb multimodal)

MM-IMDb (IMDb multimodal) es un conjunto de datos multimodal que combina información textual (resúmenes de películas), imágenes (pósters de películas) y etiquetas de género. Está diseñado para entrenar y evaluar modelos capaces de abordar varias modalidades en paralelo, en tareas de clasificación, recomendación o generación.

Obtén el dataset

Tamaño

Más de 25 000 películas, con metadatos textuales, pósters (imágenes) y etiquetas multietiqueta (géneros)

Licencia

Uso gratuito para investigación académica, bajo licencia MIT

Descripción

‍
Para cada película, el conjunto de datos incluye:

Un resumen textual (sinopsis de IMDb)
Un póster en imagen (JPEG)
Una lista de géneros (hasta 23 géneros posibles: drama, acción, comedia, etc.)
Metadatos: título, fecha, duración, etc.

‍

El conjunto de datos está estructurado para su uso en enfoques multimodales (texto e imagen), con divisiones estandarizadas para la capacitación, la validación y las pruebas.

‍

¿Para qué sirve este conjunto de datos?

‍
MM-IMDb se puede utilizar para:

Formación de modelos de clasificación multimodal (póster + sinopsis → géneros)
El desarrollo de sistemas de recomendación de películas
La fusión de representaciones de texto e imágenes (incrustación múltiple)
Análisis de la contribución respectiva del texto y la imagen a la clasificación
La validación de arquitecturas como CLIP, ViLT o BERT multimodal

‍

¿Se puede enriquecer o mejorar?

‍
Sí:

Agrega información sobre el reparto, los premios o las reseñas
Imágenes completas con capturas de escenas (fotogramas)
Introducir funciones de audio para el análisis trimodal
Mejorar las etiquetas mediante el crowdsourcing o modelos de reetiquetado más recientes

‍

🔗 Fuente: Conjunto de datos MM-IMDb en GitHub

‍