Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Howto100M
Multimodal

Howto100M

howto100m es un amplio conjunto de datos multimodales extraído de vídeos tutoriales de YouTube. Combina datos visuales (vídeo), auditivos (audio/voz) y textuales (subtítulos automáticos) para permitir el entrenamiento en modelos de alineación entre vídeo y texto, la comprensión de las instrucciones y la investigación multimodal. Es un recurso clave para el preentrenamiento de modelos de lenguaje visual a gran escala.

Obtén el dataset
Tamaño

Aproximadamente 136 millones de pares de audio y texto, de 1,2 millones de vídeos de YouTube (aproximadamente 20 000 horas de contenido)

Licencia

Acceso gratuito para investigación académica, bajo licencia MIT. Algunos vídeos están sujetos a las condiciones de uso de YouTube

Descripción


El conjunto de datos contiene:

  • 1,2 millones de vídeos instructivos de YouTube
  • Los segmentos de vídeo se alinean automáticamente con los subtítulos transcritos por YouTube
  • Una amplia variedad de campos: cocina, bricolaje, belleza, deporte, etc.
  • Datos de audio (voz, ambientación), vídeo (imágenes extraídas), texto (transcripciones sin procesar)
  • Extracciones en forma de triples sincronizados (imagen clave, texto, marca de tiempo)

Aunque los subtítulos se generan automáticamente, su enorme volumen permite un aprendizaje sólido con poca supervisión.

¿Para qué sirve este conjunto de datos?


Howto100m está diseñado para:

  • Modelos multimodales de entrenamiento (texto + vídeo + audio)
  • Entrenamiento previo para tareas como la búsqueda de vídeos, la subtitulación automática o la comprensión de instrucciones
  • La construcción de representaciones compartidas entre la visión y el lenguaje (por ejemplo, VideoClip, Florence, Flamingo)
  • La mejora de los asistentes guiados por vídeo (por ejemplo, para robots, tutoriales de voz)
  • Búsqueda rápida de datos de texto y vídeo

¿Se puede enriquecer o mejorar?


Sí, por ejemplo:

  • Mejore la alineación entre texto y vídeo con modelos de transcripción más precisos (por ejemplo, Whisper)
  • Anote manualmente los segmentos para obtener puntos de referencia de alta supervisión
  • Agregue etiquetas semánticas o categorías de acción por fotograma
  • Úselo para ajustar con precisión los modelos generativos multimodales (de vídeo a texto o de texto a vídeo)

🔗 Fuente: Cómo usar 100 millones de datos en GitHub

Preguntas frecuentes

¿Son fiables los subtítulos?

Se generan automáticamente, por lo que a veces son ruidosos. Sin embargo, su enorme volumen permite compensar la imprecisión a nivel mundial.

¿Se puede usar este conjunto de datos para entrenar modelos generativos?

Sí, es ideal para entrenar o ajustar modelos multimodales o de vídeo a texto de próxima generación.

¿Qué arquitecturas se han entrenado previamente con Howto100m?

Modelos como VideoClip, Frozen, MIL-NCE o XCLIP han utilizado este corpus para el entrenamiento previo del lenguaje visual a gran escala.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.