CameraBench

El conjunto de datos CameraBench tiene como objetivo comprender mejor los movimientos de la cámara en los vídeos. Incluye más de 1000 clips anotados manualmente, lo que permite evaluar el rendimiento de los modelos generativos y discriminatorios en una visión multimodal.

Obtén el dataset

Tamaño

Aproximadamente 1.071 clips de vídeo, 87 KB en formato parquet

Licencia

MIT

Descripción

‍

CameraBench es un conjunto de vídeos comentados para estudiar los movimientos de la cámara y evaluar modelos multimodales. Incluye clips anotados con etiquetas especializadas y subtítulos para probar la geometría y la semántica capturadas por varios modelos.

‍

¿Para qué sirve este conjunto de datos?

‍

Evalúe el rendimiento de los modelos de visión multimodales (VLM) en las tareas de percepción de vídeo
Análisis y comprensión de los movimientos de cámara en secuencias de vídeo
Facilitar el ajuste y la mejora de los modelos multimodales para las tareas de vídeo

‍

¿Se puede enriquecer o mejorar?

‍

Sí, el conjunto de datos se puede enriquecer con anotaciones adicionales o añadiendo nuevos videoclips para aumentar la diversidad de movimientos y contextos. Se fomenta el ajuste de modelos específicos para mejorar la percepción multimodal.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐✩ (Dataset limpio, formato parquet ligero)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo, anotaciones fiables)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐✩ (Bueno: etiquetas de expertos y captions)
📜 Licencia comercial	✅ Sí (MIT)
👨‍💻 Ideal para principiantes	✅ Sí, dataset de tamaño moderado
🔁 Reutilizable para fine-tuning	✅ Perfecto para modelos multimodales de video
🌍 Diversidad cultural	⚠️ No especificada, clips variados