Ego4D Video – Dataset de planification incarnée
Conjunto de datos derivado de Ego4D que contiene vídeos en primera persona asociados a instrucciones en lenguaje natural generados automáticamente y luego verificados manualmente. Está diseñado para tareas de planificación incorporadas y razonamiento multimodal.
Cientos de horas de vídeos egocéntricos + instrucciones de texto, formatos de vídeo + JSON
Apache 2.0
Descripción
Ego4D Video es un conjunto de datos multimodal que combina vídeos egocéntricos con instrucciones detalladas paso a paso. Se basa en el famoso conjunto de datos Ego4D, seleccionando secuencias relevantes enriquecidas con descripciones lingüísticas generadas automáticamente y luego verificadas por humanos. Este conjunto de datos es ideal para entrenar modelos de planificación, navegación o comprensión incorporados en un contexto real.
¿Para qué sirve este conjunto de datos?
- Entrene modelos de lenguaje visual para seguir instrucciones en entornos complejos
- Probar las habilidades de razonamiento multimodal a través de la planificación incorporada
- Desarrolla agentes autónomos capaces de interactuar con el mundo real siguiendo las instrucciones
¿Se puede enriquecer o mejorar?
Sí, es posible añadir nuevos vídeos, ampliar los tipos de tareas representadas o incluir anotaciones adicionales (objetos, acciones, ubicaciones). La estructura también permite añadir traducciones multilingües o comentarios de los usuarios para refinar las instrucciones.
🔎 En resumen
🧠 Recomendado para
- Investigadores de robótica
- Planificación de IA
- VLM encarnados
🔧 Herramientas compatibles
- PyTorch
- OpenCV
- Conjuntos de datos de Hugging Face
- CLIP
- Vídeo Mae
💡 Consejo
Utilice la correspondencia con instrucciones en vídeo para entrenar un modelo de planificación paso a paso con una supervisión minuciosa.
Preguntas frecuentes
¿Cuál es la diferencia entre el Ego4D original y este conjunto de datos?
Este conjunto de datos selecciona segmentos específicos de Ego4D y los enriquece con instrucciones lingüísticas detalladas y validadas.
¿Se puede usar este conjunto de datos para la navegación autónoma?
Sí, es especialmente adecuado para tareas incorporadas de navegación y seguimiento de instrucciones en un contexto real.
¿Necesitas habilidades avanzadas para usarlo?
Se recomienda un buen dominio del procesamiento de vídeo y de los modelos multimodales para utilizarlo de forma eficaz.