Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
MM-IMDb (conjunto de datos IMDb multimodal)
Multimodal

MM-IMDb (conjunto de datos IMDb multimodal)

MM-IMDb (IMDb multimodal) es un conjunto de datos multimodal que combina información textual (resúmenes de películas), imágenes (pósters de películas) y etiquetas de género. Está diseñado para entrenar y evaluar modelos capaces de abordar varias modalidades en paralelo, en tareas de clasificación, recomendación o generación.

Obtén el dataset
Tamaño

Más de 25 000 películas, con metadatos textuales, pósters (imágenes) y etiquetas multietiqueta (géneros)

Licencia

Uso gratuito para investigación académica, bajo licencia MIT

Descripción


Para cada película, el conjunto de datos incluye:

  • Un resumen textual (sinopsis de IMDb)
  • Un póster en imagen (JPEG)
  • Una lista de géneros (hasta 23 géneros posibles: drama, acción, comedia, etc.)
  • Metadatos: título, fecha, duración, etc.

El conjunto de datos está estructurado para su uso en enfoques multimodales (texto e imagen), con divisiones estandarizadas para la capacitación, la validación y las pruebas.

¿Para qué sirve este conjunto de datos?


MM-IMDb se puede utilizar para:

  • Formación de modelos de clasificación multimodal (póster + sinopsis → géneros)
  • El desarrollo de sistemas de recomendación de películas
  • La fusión de representaciones de texto e imágenes (incrustación múltiple)
  • Análisis de la contribución respectiva del texto y la imagen a la clasificación
  • La validación de arquitecturas como CLIP, ViLT o BERT multimodal

¿Se puede enriquecer o mejorar?


Sí:

  • Agrega información sobre el reparto, los premios o las reseñas
  • Imágenes completas con capturas de escenas (fotogramas)
  • Introducir funciones de audio para el análisis trimodal
  • Mejorar las etiquetas mediante el crowdsourcing o modelos de reetiquetado más recientes

🔗 Fuente: Conjunto de datos MM-IMDb en GitHub

Preguntas frecuentes

¿Se puede usar el conjunto de datos para probar CLIP o BLIP?

Sí, es un punto de referencia excelente para probar modelos de lenguaje de visión en la tarea de clasificación o alineación semántica.

¿Las imágenes tienen una calidad uniforme?

Los pósteres se extraen automáticamente de IMDb. Algunos pueden ser de calidad variable, pero por lo general permanecen limpios y utilizables.

¿El conjunto de datos es multilingüe?

Las sinopsis no están solo en inglés.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.