En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

Clasificación de vídeos en IA: cómo los modelos aprenden a ver y entender el mundo en movimiento

Escrito por
Nanobaly
Publicado el
2024-11-17
Tiempo de lectura
0
min

En un mundo en el que los datos visuales son cada vez más importantes, clasificación de vídeos forma parte de nuestra vida diaria. Todos tenemos la costumbre de filtrar vídeos en Instagram, en Youtube para seleccionar solo los que nos interesan. Sin embargo, también estamos sujetos a las clasificaciones que realizan los algoritmos, sin que necesariamente seamos conscientes de ellos. Esto es posible gracias a algoritmos complejos, que permiten a las máquinas «ver» y «entender» secuencias de vídeo. Además, la clasificación de vídeos es una tecnología en sí misma: ya no se limita al simple reconocimiento de imágenes estáticas, sino al análisis del movimiento, el contexto y el comportamiento a lo largo del tiempo.

Además, las clasificaciones de vídeo se basan en la anotación cuidadosa de los datos visuales y en los modelos de aprendizaje profundo, cuyo objetivo es desglosar e interpretar flujos visuales complejos. En la encrucijada de la visión artificial y aprendizaje automático, las técnicas de clasificación de vídeos abren el camino para múltiples aplicaciones, que van desde la seguridad y la vigilancia hasta las industrias de la medicina, el entretenimiento y el transporte.

💡 Descubra en este artículo cómo la clasificación de vídeos y la anotación de datos pueden ayudarle a preparar conjuntos de datos para entrenar y optimizar sus modelos de inteligencia artificial más complejos.

¿Qué es la clasificación de vídeos y por qué es importante en el mundo de la IA?

La clasificación de vídeos es el proceso mediante el cual los sistemas de inteligencia artificial analizan y clasifican las secuencias de vídeo en función de características específicas, como las acciones, los objetos presentes o los contextos de las escenas. Como se ha descrito el estado del arte sobre la clasificación automática de las secuencias de vídeo publicadas en ResearchGate, esta disciplina abarca enfoques sofisticados para identificar acciones, objetos y escenas con una precisión cada vez mayor.

Contrariamente a la clasificación de imágenes, que analiza imágenes aisladas, la clasificación de vídeos requiere comprender los cambios dinámicos a lo largo del tiempo. Esto implica identificar Patrones en movimiento, para analizar las secuencias de acción y tener en cuenta la continuidad temporal entre las imágenes, lo que hace que el proceso sea más complejo y requiere modelos avanzados de aprendizaje profundo, como redes neuronales recurrente y convolucional.

La clasificación de vídeos es esencial para la IA porque permite a las máquinas entender el mundo en todas sus dimensiones dinámicas. Al combinar imágenes en su contexto temporal, la IA puede detectar comportamientos, interpretar gestos y detectar anomalías, lo que abre una amplia gama de aplicaciones.

Por ejemplo, en la vigilancia, puede identificar actividades sospechosas en tiempo real; en el sector de la salud, ayuda a analizar los vídeos médicos para detectar movimientos anormales. Además, con el auge de los vídeos en línea, la clasificación de vídeos se ha convertido en una herramienta indispensable para organizar, recomendar y hacer que el contenido sea accesible según los intereses de los usuarios.

Source : https://www.researchgate.net/figure/Video-classification-frame-diagram_fig1_359463353
Ejemplo de diagrama que representa un flujo de trabajo de clasificación de datos de vídeo. Fuente: https://www.researchgate.net/figure/Video-classification-frame-diagram_fig1_359463353

¿Cómo se anotan los datos para la clasificación de vídeos?

La anotación de datos para la clasificación de vídeos es un proceso complejo que implica la asignación de etiquetas específicas a las secuencias de vídeo para ayudar a los modelos de IA a reconocer y clasificar acciones, objetos o eventos.

Este proceso implica varios pasos clave:

  1. Definición de categorías de etiquetas : Antes de empezar, es fundamental determinar las categorías de anotación pertinentes en función del propósito de la clasificación. Estas categorías pueden incluir acciones (como «correr» o «saltar»), objetos (como «vehículo», «persona») o escenas (como «parque» o «interior de una oficina»).
  2. Dividir el vídeo en segmentos : Para anotar acciones y objetos con precisión, los vídeos suelen dividirse en segmentos de unos pocos segundos. Cada segmento representa una secuencia específica a lo largo del tiempo, lo que permite analizar la evolución de las acciones u objetos. Este desglose es especialmente útil cuando las acciones o los comportamientos cambian durante el vídeo.
  3. Aplicación de etiquetas horarias : A diferencia de las imágenes fijas, los vídeos requieren anotaciones temporales, es decir, etiquetas que se aplican en intervalos de tiempo específicos. Por ejemplo, si una persona salta entre los segundos 10 y 15 de un vídeo, la anotación debe indicar ese momento específico para que el modelo de IA pueda reconocer la acción.
  4. Anotar objetos e interacciones : En algunos casos, la anotación puede incluir el seguimiento de objetos a través de fotogramas (o imágenes) sucesivos para identificar acciones e interacciones específicas. Este tipo de anotación a menudo implica dibujar »cajas delimitadoras» (recuadros delimitadores) alrededor de objetos de interés, o »puntos clave» para analizar los movimientos detallados, como los de las extremidades en las acciones deportivas.
  5. Uso de herramientas y software especializados : Varias plataformas y herramientas de anotación (como V7, Labelbox u otras herramientas de código abierto) facilitan este proceso al permitir anotadores para añadir etiquetas, cortar los vídeos y seguir los objetos de las secuencias. Estas herramientas también permiten gestionar grandes cantidades de conjuntos de datos, lo cual es esencial para entrenar modelos de IA eficaces. Secciones de la interfaz de usuario, como la sección Vertex AI de Google Cloud, ayuda a organizar y gestionar las anotaciones de datos proporcionando páginas importantes, como conjuntos de datos y opciones de entrenamiento de modelos.
  6. Control de calidad y consistencia : La anotación de vídeo es propensa a errores, ya que requiere una interpretación detallada de las acciones y los objetos a lo largo del tiempo. Para garantizar una calidad uniforme, las anotaciones son revisadas periódicamente por expertos o mediante mecanismos automatizados de control de calidad.

💡 A través de este riguroso proceso, las anotaciones proporcionan datos estructurados que permiten a los modelos de IA conocer las características distintivas de los vídeos, lo que mejora la precisión y la relevancia de la clasificación.

Un ejemplo de clasificación de vídeo/anotación de vídeos en Label Studio (fuente: Estudio de etiquetas)

¿Cómo analizar y estructurar el contenido de vídeo para una clasificación óptima?

Análisis y estructuración del contenido de vídeo para una clasificación óptima, dependa de varios pasos esenciales, que permiten transformar las transmisiones de vídeo sin procesar en datos organizados, listos para ser utilizados por los modelos de IA. Estos son los pasos principales de este proceso:

1. Extracción de Marcos llaves

En lugar de analizar cada fotograma de un vídeo, lo que sería costoso en términos de recursos, extraemos»Marcos claves» que representan los momentos más significativos de la secuencia. Estos Marcos se seleccionan en función de los cambios en la acción o el movimiento, lo que reduce el volumen de datos a procesar y, al mismo tiempo, mantiene la esencia del vídeo. Requiere mucho trabajo curación de datos requisito previo!

2. Segmenta el vídeo en subsecuencias

Segmentación consiste en dividir el vídeo en subsecuencias correspondientes a diferentes acciones o momentos importantes. Por ejemplo, en un vídeo deportivo, puedes segmentar los partidos, los descansos y la cámara lenta. Este paso ayuda a aislar acciones específicas y a estructurar mejor los datos para su clasificación.

3. Anotar acciones, objetos y contextos

Una vez que Marcos claves y subsecuencias identificadas, cada elemento se anota de acuerdo con categorías predefinidas, como acciones (caminar, saltar), objetos (vehículo, persona) y contexto (interior, exterior) y contexto (interior, exterior). Estas anotaciones enriquecen el contenido del vídeo al añadirle «metadatos» que sirven de guía para los modelos de IA.

4. Uso de técnicas de pretratamiento

El preprocesamiento del contenido de vídeo incluye pasos como cambiar el tamaño de los fotogramas, optimizar los colores o ajustar el brillo, que mejoran la calidad visual. Estos ajustes ayudan al modelo de IA a centrarse en aspectos importantes de la imagen sin distraerse con variaciones innecesarias.

5. Características de extracción (Características)

La extracción de características consiste en aislar información específica, como contornos, texturas o puntos de interés en los marcos, para crear vectores de características. Estos vectores resumen la información esencial de cada fotograma y, a continuación, los algoritmos los utilizan para identificar el patrones y las diferencias entre las acciones.

6. Codificación de tiempo

Para capturar el movimiento y la dinámica de un vídeo, la codificación temporal es fundamental. Permite representar las relaciones temporales entre fotogramas, como la transición de un movimiento a otro. Esto se hace con frecuencia a través de arquitecturas de redes neuronales recurrentes (RNN) o Transformadores, que procesan la información de forma secuencial y mejoran la capacidad del modelo para comprender el flujo de acciones a lo largo del tiempo.

7. Agrupación en categorías de interés

Una vez que las características se extraen y codifican en el tiempo, las subsecuencias se agrupan en categorías de interés definidas por el modelo de aprendizaje. Por ejemplo, acciones similares, como caminar y correr, se pueden agrupar en una categoría más amplia de acciones en movimiento.

Estructurar el contenido de vídeo de esta manera permite a los modelos de IA capturar los matices y la continuidad de las imágenes, lo que mejora su capacidad para clasificar los vídeos con precisión. Este enfoque transforma una serie de fotogramas en un conjunto estructurado de datos, lo que facilita la formación de modelos capaces de comprender e interpretar vídeos en una variedad de contextos.

¿Qué categorías de acciones, objetos o escenas se deben utilizar para una clasificación de vídeos precisa y eficaz?

Para una clasificación de vídeos precisa y eficaz, es esencial definir categorías de acciones, objetos y escenas que correspondan a los objetivos específicos de la aplicación y que sean lo suficientemente distintas como para que los modelos de IA puedan diferenciarlos. Estas categorías suelen definirse durante la fase de preparación de los datos o conjuntos de datos: ¡son simplemente las etiquetas (o metadatos) que quieres asignar a un vídeo!

Estos son algunos ejemplos de categorías de uso frecuente:

1. Compartir clases

Las acciones son los movimientos o comportamientos de personas u objetos en un vídeo. Son una categoría esencial en la clasificación de vídeos, especialmente para aplicaciones de vigilancia, deportes o análisis del comportamiento. Ejemplos de categorías de acción:

  • Acciones de viaje : caminar, correr, saltar, nadar
  • Interacciones sociales : saludar, dar la mano, hablar, aplaudir
  • Actividades deportivas : lanzar, golpear, driblar, esquiar
  • Acciones específicas : señala, levanta la mano, haz una señal
  • Expresiones faciales o estados emocionales : sonríe, frunce el ceño, sorpréndete

💡 Estas categorías permiten que el modelo reconozca los comportamientos y los asocie a contextos específicos.

2. Categorías de objetos

Los objetos son las entidades materiales presentes en el vídeo, que a menudo se necesitan para identificar interacciones o contextos. Las categorías de objetos permiten a los modelos de IA comprender las cosas con las que interactúan los sujetos. Ejemplos de categorías de objetos:

  • Objetos cotidianos : teléfono, libro, cristal, silla
  • Vehículos : coche, bicicleta, avión, barco
  • Animales : perro, gato, pájaro, caballo
  • Herramientas : martillo, destornillador, cepillo
  • Productos deportivos : pelota, raqueta, guantes, casco

💡 Estas categorías de objetos ayudan a los modelos a identificar interacciones o actividades basadas en el objeto (por ejemplo, «jugar al tenis» al detectar una raqueta y una pelota).

3. Categorías de escenas

Las escenas proporcionan el contexto ambiental para la acción o las interacciones observadas. La detección de la escena en la que se desarrolla la acción ayuda a la IA a ajustar su interpretación del contenido de vídeo. Ejemplos de categorías de escenas:

  • Ambientes interiores : hogar, oficina, tienda, gimnasio
  • Ambientes exteriores : parque, calle, playa, bosque
  • Transporte y movilidad : estación, aeropuerto, autopista, metro
  • Actos públicos : concierto, evento, competición deportiva
  • Escenas naturales : montaña, lago, desierto, jardín

💡 Estas categorías de escenas son esenciales para diferenciar los contextos y perfeccionar la comprensión del modelo (por ejemplo, «correr en un parque» frente a «correr en una cinta»).

4. Categorías combinadas (o contextuales)

Algunas aplicaciones requieren categorías que combinen varias dimensiones, como acciones específicas en entornos determinados o interacciones entre objetos y personas. Ejemplos de categorías combinadas:

  • Conducir en el tráfico : incluye acciones de conducción y objetos circundantes, como automóviles
  • Educación en el aula : acciones como escribir, escuchar, levantar la mano y escenas interiores en un aula
  • Seguridad industrial : incluye acciones específicas (como soldar, usar una máquina) en entornos industriales y con objetos particulares (como equipos de seguridad)

💡 Estas categorías permiten un análisis más detallado y son útiles para aplicaciones especializadas, como seguridad, educación o medicina.

Al elegir categorías específicas de acciones, objetos y escenas, el modelo de clasificación incluye directrices claras para organizar e interpretar el contenido de vídeo. Esta estructura de categorización mejora la precisión de la clasificación y hace que los modelos sean más adecuados para casos de uso específicos.

¿Cómo se eligen las palabras clave adecuadas para estructurar y optimizar las anotaciones de clasificación de vídeos?

Elegir las palabras clave adecuadas para estructurar y optimizar las anotaciones de clasificación de vídeos es fundamental para garantizar que los modelos de IA puedan interpretar y clasificar los vídeos de forma precisa y relevante desde el punto de vista del contexto. Estos son los principales criterios y pasos para seleccionar palabras clave eficaces:

1. Comprensión de los objetivos de clasificación

Antes de seleccionar palabras clave, es importante definir claramente los objetivos de la clasificación. Por ejemplo, una aplicación de vigilancia requerirá palabras clave relacionadas con acciones sospechosas, mientras que una aplicación deportiva se centrará en movimientos específicos.

Las palabras clave deben reflejar los comportamientos, los objetos o las escenas que es esencial detectar para satisfacer las necesidades de la aplicación final.

2. Elige palabras clave específicas y descriptivas

Las palabras clave deben ser lo suficientemente específicas para evitar ambigüedades. Por ejemplo, en lugar de «movimiento», una palabra clave como «correr» o «saltar» será más informativa.

Evite las palabras genéricas que puedan llevar a una clasificación errónea. El uso de términos específicos para cada categoría de acción u objeto mejora la coherencia de las anotaciones y orienta mejor el modelo.

3. Considera las categorías de acciones, objetos y escenas

Utilice palabras clave adaptadas a las diversas categorías necesarias, como acciones (por ejemplo, «caminar», «hablar»), objetos (por ejemplo, «vehículo», «teléfono») y escenas (por ejemplo, «al aire libre», «gimnasio»).

Esto permite organizar las anotaciones de acuerdo con las necesidades de clasificación de videos y optimizar los resultados al proporcionar pautas claras para aprender el modelo.

4. Usa palabras clave temporales para acciones secuenciales

Las acciones de vídeo suelen incluir secuencias temporales (inicio, desarrollo, final de una acción). El uso de palabras clave que capturen esta dimensión temporal, como «inicio», «transición» o «final», es útil para que el modelo comprenda la continuidad de las acciones en una secuencia.

Por ejemplo, palabras clave como «empezar a correr» o «detener la ejecución» pueden ayudar a estructurar la anotación de una manera más matizada.

5. Utilice palabras clave adaptadas al contexto cultural y de aplicación

Algunas palabras clave pueden tener significados variados según el contexto cultural o de la aplicación. Es importante elegir términos que se correspondan con la interpretación esperada en el contexto específico de la solicitud.

Por ejemplo, en un contexto médico, palabras clave como «comprobar el pulso» o «auscultar» son precisas y apropiadas, mientras que las palabras más genéricas serían insuficientes.

6. Busque palabras clave estandarizadas o reconocidas en el campo

Utilice términos estandarizados siempre que sea posible, por ejemplo, los que se utilizan habitualmente en las bibliotecas de visión artificial, para facilitar la coherencia en las anotaciones y la comparación de los resultados.

Las convenciones establecidas en campos especializados (como el deporte, la medicina o la seguridad) también facilitan que los modelos generalicen el conocimiento.

7. TPruebe y refine las palabras clave en función de los resultados de la clasificación

Una vez que se aplican las anotaciones, es útil probar el rendimiento del modelo y refinar las palabras clave en función de los resultados. Se pueden hacer ajustes para eliminar ambigüedades o para introducir palabras clave nuevas y más representativas.

Esto significa revisar periódicamente las anotaciones y adaptar las palabras clave de acuerdo con los errores de clasificación detectados.

Al elegir palabras clave específicas, adaptadas al contexto y probadas, mejoramos la estructura de las anotaciones, lo que permite optimizar el rendimiento de los modelos de IA para la clasificación de vídeos. Estas palabras clave desempeñan un papel central en los modelos de aprendizaje, ya que sirven como pautas claras para comprender y organizar las secuencias de vídeo de forma eficaz.

Entrene un modelo de clasificación

El entrenamiento de un modelo de clasificación es un paso necesario para mejorar la precisión de la clasificación de vídeos. Este proceso se basa en dos métodos principales: el aprendizaje automático (AutoML) y el aprendizaje supervisado. AutoML permite crear modelos de clasificación sin necesidad de conocimientos profundos sobre el aprendizaje automático, al automatizar los pasos de selección de algoritmos y optimizar los hiperparámetros. Por el contrario, el aprendizaje supervisado requiere proporcionar ejemplos etiquetados para entrenar el modelo, lo que significa más intervención humana.

Para garantizar una formación eficaz, es esencial contar con un conjunto de datos de calidad. Estos datos deben incluir vídeos etiquetados con categorías relevantes, como acciones, objetos o escenas específicas. La calidad de los datos es esencial porque influye directamente en el rendimiento del modelo. Un conjunto de datos bien anotado permite al modelo conocer las características distintivas de los vídeos y mejorar la precisión de la clasificación.

La elección de los parámetros de entrenamiento también es importante. Esto implica seleccionar el método de entrenamiento apropiado, distribuir los datos de manera equilibrada entre el entrenamiento y la validación, y ajustar los hiperparámetros para optimizar el rendimiento del modelo. Por ejemplo, el tamaño del lote, la tasa de aprendizaje y el número de épocas son hiperparámetros que se pueden ajustar para mejorar la capacitación.

En resumen, el entrenamiento de un modelo de clasificación de vídeos requiere una combinación de datos de calidad, métodos de entrenamiento adaptados y ajustes precisos de hiperparámetros. Este proceso permite desarrollar modelos que pueden clasificar los vídeos con gran precisión, lo que allana el camino para aplicaciones variadas e innovadoras.

Aplicaciones de clasificación

La clasificación de vídeos ofrece multitud de aplicaciones en diversos campos, transformando la forma en que interactuamos con el contenido de vídeo. Estas son algunas de las aplicaciones más comunes e impactantes:

  • Recomendación de contenido : Mediante la clasificación de vídeos, las plataformas pueden recomendar contenido relevante a los usuarios en función de sus preferencias e historial de visualización. Por ejemplo, a un usuario que vea vídeos de cocina con frecuencia se le ofrecerán recetas o programas de cocina similares.
  • Búsqueda de vídeos : La clasificación mejora considerablemente la búsqueda de vídeos al permitir filtrar los resultados según criterios específicos, como la categoría, el género o la calidad. Esto facilita el descubrimiento de contenido relevante y reduce el tiempo dedicado a buscar vídeos.
  • Moderación de contenido : La clasificación de vídeos desempeña un papel crucial en la moderación del contenido, ya que detecta y elimina los vídeos inapropiados u ofensivos. Los algoritmos pueden identificar contenido violento, incitado al odio o explícito, lo que garantiza un entorno en línea más seguro para los usuarios.
  • Publicidad dirigida : Al comprender los intereses de los usuarios mediante la clasificación de vídeos, los anunciantes pueden segmentar sus anuncios de forma más eficaz. Por ejemplo, una persona que vea vídeos sobre actividad física podría recibir anuncios de artículos deportivos o suscripciones a gimnasios.
  • Creación de colecciones : La clasificación permite crear colecciones de vídeos en función de criterios específicos, como la categoría o el género. Esto es especialmente útil para las plataformas de streaming que desean organizar su contenido por temas, lo que facilita la navegación de los espectadores.

Conclusión

En resumen, la clasificación de vídeos es una herramienta poderosa para mejorar la calidad y la relevancia del contenido de vídeo. No solo optimiza la experiencia del usuario, sino que también satisface necesidades específicas en una variedad de áreas, desde la recomendación de contenido hasta la moderación y la publicidad dirigida. Gracias a estas aplicaciones, la clasificación de vídeos sigue transformando la forma en que interactuamos con el contenido digital.

Como tecnología de inteligencia artificial, la clasificación de vídeos abre grandes oportunidades para analizar, organizar e interpretar secuencias de vídeo complejas. Al utilizar métodos de anotación avanzados y estructurar los datos de forma estratégica, es posible transformar las transmisiones de vídeo en información procesable para varios tipos de proyectos.

La elección cuidadosa de palabras clave, categorías y etiquetas permite a los modelos de IA detectar con precisión acciones, objetos y escenas, e interpretar las relaciones temporales inherentes a los vídeos. Esta capacidad de «ver» y comprender el mundo en movimiento proporciona a los modelos de IA aplicaciones prácticas en una variedad de campos, desde la vigilancia hasta la medicina.