Ego4D Video – Dataset de planification incarnée

Dataset dérivé d’Ego4D contenant des vidéos en vue subjective associées à des instructions en langage naturel générées automatiquement puis vérifiées manuellement. Il est conçu pour des tâches de planification incarnée et de raisonnement multimodal.

Télécharger le dataset

Taille

Plusieurs centaines d’heures de vidéos egocentriques + instructions textuelles, formats vidéo + JSON

Licence

Apache 2.0

Description

‍

Ego4D Video est un jeu de données multimodal combinant des vidéos egocentriques avec des instructions détaillées étape par étape. Il s’appuie sur le célèbre dataset Ego4D, en sélectionnant des séquences pertinentes enrichies de descriptions langagières générées automatiquement puis vérifiées humainement. Ce dataset est idéal pour entraîner des modèles de planification incarnée, de navigation ou de compréhension en contexte réel.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de vision-langage à suivre des instructions dans des environnements complexes
Tester les capacités de raisonnement multimodal via la planification incarnée
Développer des agents autonomes capables d’interagir avec le monde réel en suivant des consignes

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter de nouvelles vidéos, d’élargir les types de tâches représentées, ou d’inclure des annotations supplémentaires (objets, actions, lieux). La structure permet également l’ajout de traductions multilingues ou de retours utilisateurs pour raffiner les instructions.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐✩✩ (Nécessite traitement vidéo + texte synchronisé)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – instructions déjà filtrées et validées)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Très riche – instructions structurées, vues réelles)
📜 Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants	⚠️ Moyennement – mieux avec expérience en vidéo + NLP
🔁 Réutilisable en fine-tuning	🎬 Excellent pour modèles d’action grounding et de suivi d’instructions
🌍 Diversité culturelle	⚠️ Diversité selon les scènes réelles issues de Ego4D