Ego4D Video – Dataset de planification incarnée

Conjunto de datos derivado de Ego4D que contiene vídeos en primera persona asociados a instrucciones en lenguaje natural generados automáticamente y luego verificados manualmente. Está diseñado para tareas de planificación incorporadas y razonamiento multimodal.

Obtén el dataset

Tamaño

Cientos de horas de vídeos egocéntricos + instrucciones de texto, formatos de vídeo + JSON

Licencia

Apache 2.0

Descripción

‍

Ego4D Video es un conjunto de datos multimodal que combina vídeos egocéntricos con instrucciones detalladas paso a paso. Se basa en el famoso conjunto de datos Ego4D, seleccionando secuencias relevantes enriquecidas con descripciones lingüísticas generadas automáticamente y luego verificadas por humanos. Este conjunto de datos es ideal para entrenar modelos de planificación, navegación o comprensión incorporados en un contexto real.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos de lenguaje visual para seguir instrucciones en entornos complejos
Probar las habilidades de razonamiento multimodal a través de la planificación incorporada
Desarrolla agentes autónomos capaces de interactuar con el mundo real siguiendo las instrucciones

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir nuevos vídeos, ampliar los tipos de tareas representadas o incluir anotaciones adicionales (objetos, acciones, ubicaciones). La estructura también permite añadir traducciones multilingües o comentarios de los usuarios para refinar las instrucciones.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐✩✩ (Requiere procesamiento de video + texto sincronizado)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – instrucciones ya filtradas y validadas)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Muy rico – instrucciones estructuradas, vistas reales)
📜 Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes	⚠️ Moderado – mejor con experiencia en video + NLP
🔁 Reutilizable para fine-tuning	🎬 Excelente para modelos de acción y seguimiento de instrucciones
🌍 Diversidad cultural	⚠️ Diversidad según escenas reales de Ego4D