UCF101

UCF101 es un conjunto de datos de código abierto que es una referencia en el campo del análisis de vídeo. Incluye más de 13 000 clips que representan diversas acciones humanas, como correr, saltar, cocinar o practicar deportes. Es uno de los puntos de referencia más utilizados para entrenar y evaluar modelos de reconocimiento de acciones.

Obtén el dataset

Tamaño

13320 vídeos clasificados en 101 categorías de acciones humanas, formato AVI

Licencia

Gratuito para uso académico, con licencia Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Descripción

‍
El conjunto de datos contiene:

13.320 vídeos cortos (unos 7 segundos de media)
101 clases de acción (deportes, acciones diarias, interacciones sociales...)
Vídeos de YouTube, con un fondo realista y sin filtros
25 grupos para una división estandarizada en capacitación/pruebas
Datos de vídeo en formato AVI, 320 × 240 píxeles a 25 fps

‍

Cada vídeo muestra una única acción principal, lo que facilita la tarea de clasificación supervisada.

‍

¿Para qué sirve este conjunto de datos?

‍
El UCF101 se utiliza para:

Entrenamiento de modelos de reconocimiento de acciones humanas (CNN 3D, RNN, Video Transformers)
Validación de sistemas de visión integrados (robots, cámaras de seguridad, etc.)
Modelos de vídeo de preentrenamiento que luego se utilizan para detectar eventos
Investigación sobre arquitecturas de procesamiento espacio-temporal (SlowFast, TimesFormer, VideoMae)
Análisis del comportamiento en un contexto público general o de vigilancia

‍

¿Se puede enriquecer o mejorar?

‍
Sí, en particular a través de:

La adición de anotaciones más precisas (acciones múltiples, marco temporal exacto)
Conversión a HDF5 o TFRecord para acelerar la ingestión
Entrenamiento de modelos de segmentación temporal o detección de etiquetas múltiples
Referencias cruzadas de datos de audio o texto para enfoques multimodales

‍

🔗 Fuente: Conjunto de datos UCF101 (oficial)

‍

Preguntas frecuentes

¿El UCF101 contiene sonido?

No, los vídeos son silenciosos. Se recomienda combinarlo con otros conjuntos de datos como Kinetics si está buscando un componente de audio.

‍

¿El conjunto de datos es adecuado para la detección en tiempo real?

Parcialmente. Los vídeos son cortos y están bien recortados, lo que es ideal para clasificarlos. Para la detección en tiempo real, son preferibles las adaptaciones o un conjunto de datos como ActivityNet.

¿Hay una versión más reciente o extendida?

Sí El conjunto de datos HMDB51 es más complejo (menos ejemplos, más ruido) y el Kinetics-600/700 ofrece un volumen mayor para tareas similares.

Otros datasets

Medical

Conjunto de datos del TCIA (archivo de imágenes del cáncer)

Texto

Go Emotions

Texto

Clothing Fit Dataset for Size Recommendation