UCF101
UCF101 est un dataset open source de référence dans le domaine de l’analyse de vidéos. Il regroupe plus de 13000 clips représentant des actions humaines variées telles que courir, sauter, cuisiner ou faire du sport. C’est l’un des benchmarks les plus utilisés pour l’entraînement et l’évaluation de modèles de reconnaissance d’actions.
13320 vidéos classées en 101 catégories d’actions humaines, format AVI
Libre pour usage académique, sous licence Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)
Description
Le dataset contient :
- 13,320 vidéos courtes (environ 7 secondes en moyenne)
- 101 classes d’action (sports, gestes quotidiens, interactions sociales…)
- Vidéos issues de YouTube, avec un arrière-plan réaliste et non filtré
- 25 groupes pour un découpage standardisé en entraînement/test
- Données vidéo au format AVI, en 320×240 pixels à 25 fps
Chaque vidéo montre une seule action principale, facilitant la tâche de classification supervisée.
À quoi sert ce dataset ?
UCF101 est utilisé pour :
- L’entraînement de modèles de reconnaissance d’actions humaines (CNN 3D, RNN, Transformers vidéo)
- La validation de systèmes de vision embarquée (robots, caméras de sécurité…)
- Le pré-entraînement de modèles vidéo utilisés ensuite pour la détection d’événements
- La recherche sur les architectures de traitement spatio-temporel (SlowFast, TimeSformer, VideoMAE)
- L’analyse comportementale en contexte grand public ou surveillance
Peut-on l’enrichir ou l’améliorer ?
Oui, notamment via :
- L’ajout d’annotations plus fines (multi-actions, temporalité exacte)
- La conversion en format HDF5 ou TFRecord pour accélérer l’ingestion
- L’entraînement de modèles de segmentation temporelle ou de détection multi-label
- Le croisement avec des données audio ou textuelles pour des approches multimodales
🔗 Source : UCF101 Dataset (officiel)
Questions fréquemment posées
Est-ce que UCF101 contient du son ?
Non, les vidéos sont muettes. Il est recommandé de combiner avec d'autres datasets comme Kinetics si vous recherchez une composante audio.
Le dataset est-il adapté à la détection en temps réel ?
Partiellement. Les vidéos sont courtes et bien découpées, ce qui est idéal pour la classification. Pour la détection temps réel, des adaptations ou un dataset comme ActivityNet sont préférables.
Existe-t-il une version plus récente ou étendue ?
Oui. Le dataset HMDB51 est plus difficile (moins d’exemples, plus de bruit), et Kinetics-600/700 propose un plus grand volume pour des tâches similaires.