En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Ego4D Video – Dataset de planification incarnée
Multimodal

Ego4D Video – Dataset de planification incarnée

Dataset dérivé d’Ego4D contenant des vidéos en vue subjective associées à des instructions en langage naturel générées automatiquement puis vérifiées manuellement. Il est conçu pour des tâches de planification incarnée et de raisonnement multimodal.

Télécharger le dataset
Taille

Plusieurs centaines d’heures de vidéos egocentriques + instructions textuelles, formats vidéo + JSON

Licence

Apache 2.0

Description

Ego4D Video est un jeu de données multimodal combinant des vidéos egocentriques avec des instructions détaillées étape par étape. Il s’appuie sur le célèbre dataset Ego4D, en sélectionnant des séquences pertinentes enrichies de descriptions langagières générées automatiquement puis vérifiées humainement. Ce dataset est idéal pour entraîner des modèles de planification incarnée, de navigation ou de compréhension en contexte réel.

À quoi sert ce dataset ?

  • Entraîner des modèles de vision-langage à suivre des instructions dans des environnements complexes
  • Tester les capacités de raisonnement multimodal via la planification incarnée
  • Développer des agents autonomes capables d’interagir avec le monde réel en suivant des consignes

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter de nouvelles vidéos, d’élargir les types de tâches représentées, ou d’inclure des annotations supplémentaires (objets, actions, lieux). La structure permet également l’ajout de traductions multilingues ou de retours utilisateurs pour raffiner les instructions.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐✩✩ (Nécessite traitement vidéo + texte synchronisé)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – instructions déjà filtrées et validées)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Très riche – instructions structurées, vues réelles)
📜 Licence commerciale✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants⚠️ Moyennement – mieux avec expérience en vidéo + NLP
🔁 Réutilisable en fine-tuning🎬 Excellent pour modèles d’action grounding et de suivi d’instructions
🌍 Diversité culturelle⚠️ Diversité selon les scènes réelles issues de Ego4D

🧠 Recommandé pour

  • Chercheurs en robotique
  • Planification IA
  • VLMs incarnés

🔧 Outils compatibles

  • PyTorch
  • OpenCV
  • CLIP
  • VideoMAE

💡 Astuce

Utilisez la correspondance vidéo-instruction pour entraîner un modèle de planification pas-à-pas avec supervision fine.

Questions fréquemment posées

Quelle est la différence entre Ego4D original et ce dataset ?

Ce dataset sélectionne des segments spécifiques d’Ego4D et les enrichit avec des instructions langagières détaillées et validées.

Peut-on utiliser ce dataset pour la navigation autonome ?

Oui, il est particulièrement adapté aux tâches de navigation incarnée et de suivi d’instructions en contexte réel.

Faut-il des compétences avancées pour l’exploiter ?

Une bonne maîtrise du traitement vidéo et des modèles multimodaux est recommandée pour l’utiliser efficacement.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.