CameraBench

Le dataset CameraBench vise à mieux comprendre les mouvements de caméra dans les vidéos. Il comprend plus de 1 000 clips annotés manuellement, permettant d’évaluer les performances de modèles génératifs et discriminatifs en vision multimodale.

Télécharger le dataset

Taille

Environ 1 071 clips vidéo, 87 Ko en format parquet

Licence

MIT

Description

‍

CameraBench est un ensemble de vidéos annotées pour l’étude des mouvements de caméra et l’évaluation de modèles multimodaux. Il comprend des clips annotés avec des labels experts et captions pour tester la géométrie et la sémantique captée par différents modèles.

‍

À quoi sert ce dataset ?

‍

Évaluer la performance des modèles de vision multimodale (VLMs) sur des tâches de perception vidéo
Analyser et comprendre les mouvements de caméra dans des séquences vidéo
Faciliter le fine-tuning et l’amélioration de modèles multimodaux pour des tâches vidéo

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, le dataset peut être enrichi par des annotations supplémentaires ou par l’ajout de nouveaux clips vidéos pour augmenter la diversité des mouvements et contextes. Le fine-tuning de modèles spécifiques est encouragé pour améliorer la perception multimodale.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Dataset propre, format parquet léger)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible, annotations fiables)
🏷️ Richesse des annotations	⭐⭐⭐⭐✩ (Bonne : labels experts et captions)
📜 Licence commerciale	✅ Oui (MIT)
👨‍💻 Idéal pour les débutants	✅ Oui, dataset de taille modérée
🔁 Réutilisable en fine-tuning	✅ Parfait pour modèles multimodaux vidéo
🌍 Diversité culturelle	⚠️ Non spécifiée, clips variés