CameraBench
Le dataset CameraBench vise à mieux comprendre les mouvements de caméra dans les vidéos. Il comprend plus de 1 000 clips annotés manuellement, permettant d’évaluer les performances de modèles génératifs et discriminatifs en vision multimodale.
Description
CameraBench est un ensemble de vidéos annotées pour l’étude des mouvements de caméra et l’évaluation de modèles multimodaux. Il comprend des clips annotés avec des labels experts et captions pour tester la géométrie et la sémantique captée par différents modèles.
À quoi sert ce dataset ?
- Évaluer la performance des modèles de vision multimodale (VLMs) sur des tâches de perception vidéo
- Analyser et comprendre les mouvements de caméra dans des séquences vidéo
- Faciliter le fine-tuning et l’amélioration de modèles multimodaux pour des tâches vidéo
Peut-on l’enrichir ou l’améliorer ?
Oui, le dataset peut être enrichi par des annotations supplémentaires ou par l’ajout de nouveaux clips vidéos pour augmenter la diversité des mouvements et contextes. Le fine-tuning de modèles spécifiques est encouragé pour améliorer la perception multimodale.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en vision vidéo
- Développeurs VLM
- Projets de compréhension vidéo
🔧 Outils compatibles
- PyTorch
- TensorFlow
- Frameworks multimodaux
- Notebooks d’annotation vidéo
💡 Astuce
Utiliser ce dataset pour comparer les performances entre modèles génératifs et discriminatifs sur la perception visuelle.
Questions fréquemment posées
Quelle est la taille du dataset CameraBench ?
Le dataset comprend environ 1 071 clips vidéo annotés, avec un poids total très léger (87 Ko en format parquet).
Quel type de tâches peut-on évaluer avec CameraBench ?
Principalement les tâches d’analyse des mouvements de caméra et l’évaluation des capacités des modèles multimodaux sur vidéo.
Quelle licence couvre ce dataset ?
Le dataset est sous licence MIT, libre d’usage y compris commercial.




