En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Video

UCF101

UCF101 est un dataset open source de référence dans le domaine de l’analyse de vidéos. Il regroupe plus de 13000 clips représentant des actions humaines variées telles que courir, sauter, cuisiner ou faire du sport. C’est l’un des benchmarks les plus utilisés pour l’entraînement et l’évaluation de modèles de reconnaissance d’actions.

Télécharger le dataset
Taille

13320 vidéos classées en 101 catégories d’actions humaines, format AVI

Licence

Libre pour usage académique, sous licence Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Description


Le dataset contient :

  • 13,320 vidéos courtes (environ 7 secondes en moyenne)
  • 101 classes d’action (sports, gestes quotidiens, interactions sociales…)
  • Vidéos issues de YouTube, avec un arrière-plan réaliste et non filtré
  • 25 groupes pour un découpage standardisé en entraînement/test
  • Données vidéo au format AVI, en 320×240 pixels à 25 fps

Chaque vidéo montre une seule action principale, facilitant la tâche de classification supervisée.

À quoi sert ce dataset ?


UCF101 est utilisé pour :

  • L’entraînement de modèles de reconnaissance d’actions humaines (CNN 3D, RNN, Transformers vidéo)
  • La validation de systèmes de vision embarquée (robots, caméras de sécurité…)
  • Le pré-entraînement de modèles vidéo utilisés ensuite pour la détection d’événements
  • La recherche sur les architectures de traitement spatio-temporel (SlowFast, TimeSformer, VideoMAE)
  • L’analyse comportementale en contexte grand public ou surveillance

Peut-on l’enrichir ou l’améliorer ?


Oui, notamment via :

  • L’ajout d’annotations plus fines (multi-actions, temporalité exacte)
  • La conversion en format HDF5 ou TFRecord pour accélérer l’ingestion
  • L’entraînement de modèles de segmentation temporelle ou de détection multi-label
  • Le croisement avec des données audio ou textuelles pour des approches multimodales

🔗 Source : UCF101 Dataset (officiel)

Questions fréquemment posées

Est-ce que UCF101 contient du son ?

Non, les vidéos sont muettes. Il est recommandé de combiner avec d'autres datasets comme Kinetics si vous recherchez une composante audio.

Le dataset est-il adapté à la détection en temps réel ?

Partiellement. Les vidéos sont courtes et bien découpées, ce qui est idéal pour la classification. Pour la détection temps réel, des adaptations ou un dataset comme ActivityNet sont préférables.

Existe-t-il une version plus récente ou étendue ?

Oui. Le dataset HMDB51 est plus difficile (moins d’exemples, plus de bruit), et Kinetics-600/700 propose un plus grand volume pour des tâches similaires.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.