UCF101

UCF101 est un dataset open source de référence dans le domaine de l’analyse de vidéos. Il regroupe plus de 13000 clips représentant des actions humaines variées telles que courir, sauter, cuisiner ou faire du sport. C’est l’un des benchmarks les plus utilisés pour l’entraînement et l’évaluation de modèles de reconnaissance d’actions.

Télécharger le dataset

Taille

13320 vidéos classées en 101 catégories d’actions humaines, format AVI

Licence

Libre pour usage académique, sous licence Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Description

‍
Le dataset contient :

13,320 vidéos courtes (environ 7 secondes en moyenne)
101 classes d’action (sports, gestes quotidiens, interactions sociales…)
Vidéos issues de YouTube, avec un arrière-plan réaliste et non filtré
25 groupes pour un découpage standardisé en entraînement/test
Données vidéo au format AVI, en 320×240 pixels à 25 fps

‍

Chaque vidéo montre une seule action principale, facilitant la tâche de classification supervisée.

‍

À quoi sert ce dataset ?

‍
UCF101 est utilisé pour :

L’entraînement de modèles de reconnaissance d’actions humaines (CNN 3D, RNN, Transformers vidéo)
La validation de systèmes de vision embarquée (robots, caméras de sécurité…)
Le pré-entraînement de modèles vidéo utilisés ensuite pour la détection d’événements
La recherche sur les architectures de traitement spatio-temporel (SlowFast, TimeSformer, VideoMAE)
L’analyse comportementale en contexte grand public ou surveillance

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, notamment via :

L’ajout d’annotations plus fines (multi-actions, temporalité exacte)
La conversion en format HDF5 ou TFRecord pour accélérer l’ingestion
L’entraînement de modèles de segmentation temporelle ou de détection multi-label
Le croisement avec des données audio ou textuelles pour des approches multimodales

‍

🔗 Source : UCF101 Dataset (officiel)

‍

Questions fréquemment posées

Est-ce que UCF101 contient du son ?

Non, les vidéos sont muettes. Il est recommandé de combiner avec d'autres datasets comme Kinetics si vous recherchez une composante audio.

‍

Le dataset est-il adapté à la détection en temps réel ?

Partiellement. Les vidéos sont courtes et bien découpées, ce qui est idéal pour la classification. Pour la détection temps réel, des adaptations ou un dataset comme ActivityNet sont préférables.

Existe-t-il une version plus récente ou étendue ?

Oui. Le dataset HMDB51 est plus difficile (moins d’exemples, plus de bruit), et Kinetics-600/700 propose un plus grand volume pour des tâches similaires.

Datasets similaires

Texte

Civil Comments - Corpus de commentaires modérés et annotés pour toxicité

Texte

UCI Machine Learning Repository

Audio

DCASE Challenge Dataset