Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Ego4D Video – Dataset de planification incarnée
Multimodal

Ego4D Video – Dataset de planification incarnée

Conjunto de datos derivado de Ego4D que contiene vídeos en primera persona asociados a instrucciones en lenguaje natural generados automáticamente y luego verificados manualmente. Está diseñado para tareas de planificación incorporadas y razonamiento multimodal.

Obtén el dataset
Tamaño

Cientos de horas de vídeos egocéntricos + instrucciones de texto, formatos de vídeo + JSON

Licencia

Apache 2.0

Descripción

Ego4D Video es un conjunto de datos multimodal que combina vídeos egocéntricos con instrucciones detalladas paso a paso. Se basa en el famoso conjunto de datos Ego4D, seleccionando secuencias relevantes enriquecidas con descripciones lingüísticas generadas automáticamente y luego verificadas por humanos. Este conjunto de datos es ideal para entrenar modelos de planificación, navegación o comprensión incorporados en un contexto real.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de lenguaje visual para seguir instrucciones en entornos complejos
  • Probar las habilidades de razonamiento multimodal a través de la planificación incorporada
  • Desarrolla agentes autónomos capaces de interactuar con el mundo real siguiendo las instrucciones

¿Se puede enriquecer o mejorar?

Sí, es posible añadir nuevos vídeos, ampliar los tipos de tareas representadas o incluir anotaciones adicionales (objetos, acciones, ubicaciones). La estructura también permite añadir traducciones multilingües o comentarios de los usuarios para refinar las instrucciones.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐✩✩ (Requiere procesamiento de video + texto sincronizado)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – instrucciones ya filtradas y validadas)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Muy rico – instrucciones estructuradas, vistas reales)
📜 Licencia comercial✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes⚠️ Moderado – mejor con experiencia en video + NLP
🔁 Reutilizable para fine-tuning🎬 Excelente para modelos de acción y seguimiento de instrucciones
🌍 Diversidad cultural⚠️ Diversidad según escenas reales de Ego4D

🧠 Recomendado para

  • Investigadores de robótica
  • Planificación de IA
  • VLM encarnados

🔧 Herramientas compatibles

  • PyTorch
  • OpenCV
  • Conjuntos de datos de Hugging Face
  • CLIP
  • Vídeo Mae

💡 Consejo

Utilice la correspondencia con instrucciones en vídeo para entrenar un modelo de planificación paso a paso con una supervisión minuciosa.

Preguntas frecuentes

¿Cuál es la diferencia entre el Ego4D original y este conjunto de datos?

Este conjunto de datos selecciona segmentos específicos de Ego4D y los enriquece con instrucciones lingüísticas detalladas y validadas.

¿Se puede usar este conjunto de datos para la navegación autónoma?

Sí, es especialmente adecuado para tareas incorporadas de navegación y seguimiento de instrucciones en un contexto real.

¿Necesitas habilidades avanzadas para usarlo?

Se recomienda un buen dominio del procesamiento de vídeo y de los modelos multimodales para utilizarlo de forma eficaz.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.