Ego4D Video – Dataset de planification incarnée
Dataset dérivé d’Ego4D contenant des vidéos en vue subjective associées à des instructions en langage naturel générées automatiquement puis vérifiées manuellement. Il est conçu pour des tâches de planification incarnée et de raisonnement multimodal.
Plusieurs centaines d’heures de vidéos egocentriques + instructions textuelles, formats vidéo + JSON
Apache 2.0
Description
Ego4D Video est un jeu de données multimodal combinant des vidéos egocentriques avec des instructions détaillées étape par étape. Il s’appuie sur le célèbre dataset Ego4D, en sélectionnant des séquences pertinentes enrichies de descriptions langagières générées automatiquement puis vérifiées humainement. Ce dataset est idéal pour entraîner des modèles de planification incarnée, de navigation ou de compréhension en contexte réel.
À quoi sert ce dataset ?
- Entraîner des modèles de vision-langage à suivre des instructions dans des environnements complexes
- Tester les capacités de raisonnement multimodal via la planification incarnée
- Développer des agents autonomes capables d’interagir avec le monde réel en suivant des consignes
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter de nouvelles vidéos, d’élargir les types de tâches représentées, ou d’inclure des annotations supplémentaires (objets, actions, lieux). La structure permet également l’ajout de traductions multilingues ou de retours utilisateurs pour raffiner les instructions.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en robotique
- Planification IA
- VLMs incarnés
🔧 Outils compatibles
- PyTorch
- OpenCV
- CLIP
- VideoMAE
💡 Astuce
Utilisez la correspondance vidéo-instruction pour entraîner un modèle de planification pas-à-pas avec supervision fine.
Questions fréquemment posées
Quelle est la différence entre Ego4D original et ce dataset ?
Ce dataset sélectionne des segments spécifiques d’Ego4D et les enrichit avec des instructions langagières détaillées et validées.
Peut-on utiliser ce dataset pour la navigation autonome ?
Oui, il est particulièrement adapté aux tâches de navigation incarnée et de suivi d’instructions en contexte réel.
Faut-il des compétences avancées pour l’exploiter ?
Une bonne maîtrise du traitement vidéo et des modèles multimodaux est recommandée pour l’utiliser efficacement.