En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Vídeo

UCF101

UCF101 es un conjunto de datos de código abierto que es una referencia en el campo del análisis de vídeo. Incluye más de 13 000 clips que representan diversas acciones humanas, como correr, saltar, cocinar o practicar deportes. Es uno de los puntos de referencia más utilizados para entrenar y evaluar modelos de reconocimiento de acciones.

Obtén el dataset
Tamaño

13320 vídeos clasificados en 101 categorías de acciones humanas, formato AVI

Licencia

Gratuito para uso académico, con licencia Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Descripción


El conjunto de datos contiene:

  • 13.320 vídeos cortos (unos 7 segundos de media)
  • 101 clases de acción (deportes, acciones diarias, interacciones sociales...)
  • Vídeos de YouTube, con un fondo realista y sin filtros
  • 25 grupos para una división estandarizada en capacitación/pruebas
  • Datos de vídeo en formato AVI, 320 × 240 píxeles a 25 fps

Cada vídeo muestra una única acción principal, lo que facilita la tarea de clasificación supervisada.

¿Para qué sirve este conjunto de datos?


El UCF101 se utiliza para:

  • Entrenamiento de modelos de reconocimiento de acciones humanas (CNN 3D, RNN, Video Transformers)
  • Validación de sistemas de visión integrados (robots, cámaras de seguridad, etc.)
  • Modelos de vídeo de preentrenamiento que luego se utilizan para detectar eventos
  • Investigación sobre arquitecturas de procesamiento espacio-temporal (SlowFast, TimesFormer, VideoMae)
  • Análisis del comportamiento en un contexto público general o de vigilancia

¿Se puede enriquecer o mejorar?


Sí, en particular a través de:

  • La adición de anotaciones más precisas (acciones múltiples, marco temporal exacto)
  • Conversión a HDF5 o TFRecord para acelerar la ingestión
  • Entrenamiento de modelos de segmentación temporal o detección de etiquetas múltiples
  • Referencias cruzadas de datos de audio o texto para enfoques multimodales

🔗 Fuente: Conjunto de datos UCF101 (oficial)

Preguntas frecuentes

¿El UCF101 contiene sonido?

No, los vídeos son silenciosos. Se recomienda combinarlo con otros conjuntos de datos como Kinetics si está buscando un componente de audio.

¿El conjunto de datos es adecuado para la detección en tiempo real?

Parcialmente. Los vídeos son cortos y están bien recortados, lo que es ideal para clasificarlos. Para la detección en tiempo real, son preferibles las adaptaciones o un conjunto de datos como ActivityNet.

¿Hay una versión más reciente o extendida?

Sí El conjunto de datos HMDB51 es más complejo (menos ejemplos, más ruido) y el Kinetics-600/700 ofrece un volumen mayor para tareas similares.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.