En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

YOLO v9: entendiendo YOLO, el algoritmo de detección de objetos más popular

Escrito por
Nicolas
Publicado el
2024-03-02
Tiempo de lectura
0
min

La detección de objetos es una tarea fundamental en Computer Vision : permite a las inteligencias artificiales localizar y clasificar los objetos presentes en imágenes o vídeos. La capacidad de detectar objetos con precisión tiene numerosas aplicaciones, que van desde vehículos autónomos hasta sistemas de vigilancia. En los últimos años, un algoritmo ha ganado popularidad por su excepcional rendimiento en detección de objetos : Solo miras una vez (YOLO). Pero, ¿qué sabe sobre este algoritmo y qué entiende de él?

¿No tienes ni idea? No te preocupes, este artículo está aquí para explicar qué es YOLO, su importancia en el mundo de la IA y sus diferentes versiones. Después de leer esto, comprenderá bien YOLO y sus aplicaciones. ¡Vamos!

Algoritmos de detección de objetos: ¿qué son?

Los algoritmos de detección de objetos son programas informáticos diseñados para identificar y localizar objetos en una imagen o vídeo. Estos potentes algoritmos de detección pueden identificar varios objetos y clasificarlos en diferentes categorías.

Un ejemplo popular de un algoritmo de detección de objetos es YOLO (You Only Look Once), que procesa rápidamente las imágenes en tiempo real, lo que lo hace muy eficaz para aplicaciones como la supervisión y el control del tráfico. Otro ejemplo es la familia R-CNN (Regiones con redes neuronales convolucionales), que incluye R-CNN rápido y R-CNN más rápido, reconocidas por su precisión a la hora de detectar uno o varios objetos al proponer primero regiones y luego clasificarlas.

Con los avances de la inteligencia artificial (aprendizaje profundo), estos algoritmos mejoran constantemente, se vuelven más rápidos y precisos, y desempeñan un papel esencial en el desarrollo de tecnologías como los vehículos autónomos, donde contribuyen a automatizar un sistema de detección de obstáculos en la carretera, por ejemplo.


¿Qué es YOLO? ¿Qué importancia tiene en la IA?

Lo vimos, YOLO, o «Solo miras una vez», es una herramienta especial que ayuda a las computadoras a ver cosas de forma rápida y precisa en imágenes, archivos de texto o vídeos.

Creado por los expertos Joseph Redmon y Alí Farhadi En 2015, YOLO es más rápido que las herramientas antiguas porque analiza toda la imagen a la vez. Esta comprobación rápida permite a YOLO identificar rápidamente si hay otros objetos, como automóviles, árboles o animales, y dónde se encuentran en la imagen.

La importancia de YOLO es enorme para la IA, especialmente en el desarrollo de productos avanzados como los vehículos autónomos. En el caso de los vehículos autónomos, YOLO puede funcionar como los ojos del automóvil, detectando rápidamente cosas en la carretera para evitar accidentes. Además, al estar integrado en las cámaras inteligentes, YOLO puede contribuir a mejorar la videovigilancia al detectar automáticamente comportamientos inusuales, por ejemplo, en aeropuertos o centros comerciales. Esto significa que si alguien deja una mochila sola, YOLO puede informar al equipo de seguridad de inmediato mediante una notificación.

Los creadores de YOLO siguen actualizando el algoritmo para mejorarlo continuamente; existen numerosas versiones, desde YoloV1 hasta YoloV9 (la más reciente, lanzada en febrero de 2024), y cada nueva versión es más rápida y precisa. YOLO se ha hecho muy popular porque otorga a las máquinas superpoderes para ver y entender el mundo rápidamente y localizar objetos para una multitud de aplicaciones del mundo real.

Logo


¿Cómo preparar datos para entrenar sus modelos YOLO?
Confíe en nuestros anotadores para sus tareas de anotación de datos más complejas y mejore la calidad de sus datos para alcanzar un nivel de fiabilidad del 99 %. ¡Colabore con nuestros Data Labelers ahora!

¿Cómo funciona YOLO?

Así es como funciona el algoritmo de detección de objetos YOLO (You Only Look Once), explicado en sencillos pasos:

1. Toma una foto

En primer lugar, el algoritmo YOLO comienza con una imagen, como cuando se toma una foto con una cámara. Esto es lo que denominamos detección de objetos basada en clasificación de imágenes !

2. Divide la imagen

Luego, divide la imagen dada en cuadrados pequeños, como un tablero de ajedrez. Se comprobará cada casilla para ver si contiene un objeto (un gato, un perro o incluso una lata de comida, por ejemplo).

3. Busca pistas

Para cada cuadrado, YOLO busca pistas o características como bordes, formas o texturas que puedan indicar qué objeto hay allí. Los rodea con cajas que los rodean. Dado que YOLO necesita aprender a comprender e interpretar completamente un nuevo conjunto de datos, a veces se le ha dado un conjunto de datos de referencia (o «verdad básica») en el que puede basarse para obtener puntos de comparación.

4. Hacer predicciones

El algoritmo hace una suposición para cada cuadrado de una imagen: ¿qué objeto podría ser y dónde está exactamente en el cuadrado? Da a cada suposición una puntuación para mostrar su nivel de certeza.

5. Eliminar los excedentes

Algunos cuadrados adivinan diferentes objetos que se superponen, como dos cuadrados que adivinan parte del mismo automóvil. YOLO elige la mejor suposición para cada objeto, eliminando suposiciones superfluas.

6. Muestra lo que encontró

Al final, YOLO te muestra dónde cree que está cada objeto dibujando cajas a su alrededor y etiquetándolos, como «coche» o «árbol». Si le das 1000 imágenes de perros y gatos y le pides que identifique a los gatos, te mostrará imágenes ricas en metadatos que apuntan a los gatos.

💡 El punto fuerte de YOLO es que analiza todos los elementos de una imagen (divididos en «cuadrados») al mismo tiempo. Por eso Es rápido e incluso puede funcionar en tiempo real, que es extremadamente útil para aplicaciones que requieren reacciones rápidas, ¡como los coches autónomos o la videovigilancia!

Logo


💡 ¿Lo sabías?
YOLO, abreviatura de "You Only Look Once", es una de las arquitecturas y algoritmos de detección de objetos más populares. YOLO puede predecir la clase de un objeto y la caja delimitadora que define su ubicación en una imagen en una sola pasada, lo que lo hace ideal para aplicaciones en tiempo real.

YOLO contra R-CNN: ¿cuáles son las diferencias?

Tanto YOLO como R-CNN son eficaces para identificar objetos en imágenes o videos, pero lo hacen de diferentes maneras y para casos de uso a menudo diferentes. ¡Así es como se diferencian en los procesos de detección de objetos!

Vitesse

YOLO es muy rápido porque analiza toda la imagen de una sola vez. Sin embargo, R-CNN examina partes de la imagen varias veces para encontrar objetos, lo que lleva más tiempo. Por lo tanto, ¡el modelo YOLO ofrece más velocidad en la detección de objetos!

Medidas adoptadas

YOLO divide la imagen en cuadrados, adivina qué hay en cada uno y elimina las conjeturas superfluas. R-CNN comienza por encontrar partes interesantes de la imagen y luego las examina más de cerca para determinar qué hay en ellas.

Precisión

R-CNN es muy meticulosa y precisa porque dedica más tiempo a revisar cada parte de la imagen. YOLO es más rápido, pero a veces no siempre es tan minucioso como R-CNN.

Casos de uso

YOLO es adecuado cuando necesitas respuestas rápidas, como en un coche autónomo que necesita tomar decisiones rápidas. R-CNN es mejor cuando necesitas estar muy seguro de lo que hay en la imagen y disponer de más tiempo para comprobarlo, por ejemplo, si una imagen médica muestra signos de enfermedad.

Criterios YOLO R-CNN
Velocidad Más rápido Más lento
Método Analiza la imagen de una sola vez Analiza fragmentos de la imagen varias veces
Precisión Menos preciso, pero en mejora Más preciso
Ideal para Aplicaciones en tiempo real Análisis detallado cuando la velocidad no es crítica


Tabla comparativa: YOLO vs. R-CNN

👉 En general, usar YOLO es como echar un vistazo rápido a una habitación y encontrar rápidamente la mayoría de los objetos que contiene. Dirigir R-CNN es como tomarse el tiempo de mirar cada rincón y grieta de esta habitación para asegurarse de que no se pierde nada. Ambos algoritmos son geniales para jugar a este juego, ¡pero lo juegan de forma diferente!

Evolución de la detección de objetos: de YOLO 1 a YOLO 9

YOLO, acrónimo de «You Only Look Once», es un algoritmo de detección de objetos en tiempo real que ha experimentado mejoras significativas desde su creación. Como detector»Un tiro«, procesa imágenes e identifica objetos mediante la predicción de casillas delimitadoras y probabilidades de clase en una sola pasada. Con el tiempo, YOLO se ha vuelto cada vez más resistente y eficiente, como lo ilustra muy bien la última publicación de sus autores:

Ilustración de la actuación de YOLO de GitHub de sus autores, probado en el set MS COCO. En el eje x, el número de parámetros; en el eje y, la precisión media como porcentaje.

YOLO V1

- La primera versión de YOLO revolucionó la comunidad de investigación de inteligencia artificial y visión artificial con sus capacidades de detección de objetos en tiempo real, que ofrecen velocidades de inferencia mucho más rápidas que los métodos existentes, como R-CNN.

- YOLO v1 divide la imagen entrante en una cuadrícula y predice varios cuadros delimitadores y probabilidades de clase para cada celda de la cuadrícula.

- Sin embargo, con esta primera versión, la precisión era un compromiso. Entonces, YOLO tuvo problemas con objetos pequeños y produjo numerosos errores de localización de objetos.

YOLO V2 y V3

- Las versiones posteriores, como YOLO v2 y v3, introdujeron mejoras notables y nuevas funciones, como las cajas de anclaje, que utilizaban la agrupación en clústeres de k-means para predecir coordenadas de cajas delimitadoras más precisas.

- Estas versiones también aprovecharon la estandarización por lotes y la administración de imágenes de entrada de mayor resolución, lo que llevó a un rendimiento de detección significativamente mejor en los puntos de referencia, como los conjuntos de datos Pascal VOC y COCO.

YOLO V4 y V5

- Con el objetivo de lograr una alta velocidad y precisión, YOLO v4 introdujo funciones como la Agrupación piramidal espacial y una arquitectura YOLO más compleja basada en redes convolucionales de vanguardia.

- YOLO v5 se centró en la simplificación y la optimización, lo que le permitió ejecutarse extremadamente rápido en hardware menos potente y, al mismo tiempo, mantener una alta precisión.

YOLO V6 a V8

- Las versiones más recientes de YOLO, empezando por la versión 6, introducen mejoras continuas centradas en aplicaciones concretas de YOLO, como los vehículos autónomos o la videovigilancia. Cuanto más avanzas en el tiempo, más se aleja YOLO de la comunidad investigadora para llegar al público en general y a los casos de uso aplicados a la vida real.

- Estas versiones refinaron el uso de técnicas de aprendizaje profundo, incluidas varias formas deAumento de datos y algoritmos de optimización que han ayudado a mejorar la precisión promedio y la capacidad de detectar una amplia gama de clases de objetos.

YOLO V9

El 21 de febrero de 2024, Chien-Yao Wang, I-Hau Yeh y Hong-Yuan Mark Liao publicó el artículo»YoloV9: Aprenda lo que quiere aprender utilizando la información de gradiente programable«, que presenta una nueva arquitectura de modelos de visión artificial: Yolo V9.

YoloV9 representa un gran avance en la serie de modelos YOLO, que ofrece mejoras significativas en la precisión y la eficiencia para la detección de objetos en tiempo real. Se diferencia de sus predecesores, en particular de YoloV8, por un reducción del 49% en el número de parámetros y del 43% en la complejidad computacional, al tiempo que aumenta la precisión promedio del conjunto de datos MS COCO en un 0,6%.

La serie YoloV9 incluye cuatro modelos : YOLOV9-S (pequeña), YOLOV9-M (mediana), YOLOV9-C (compacta) y YOLOV9-e (extendida), cada una de las cuales varía en cuanto al número de ajustes y actuaciones. Estos modelos están diseñados para satisfacer una variedad de necesidades, que van desde aplicaciones ligeras hasta aplicaciones con un rendimiento más intensivo.

YoloV9 presenta dos innovaciones principales:

- 1. - El Información de gradiente programable (PGI)

- 2. El Red generalizada de agregación de capas eficientes (GELAN)

El ERP es un mecanismo de supervisión auxiliar con tres componentes principales:

- 1. Una sucursal principal

- 2. Una rama auxiliar reversible

- 3. Información auxiliar de varios niveles

Esta estructura ayuda a mitigar la pérdida de información causada por los cuellos de botella de información, un problema común en las redes neuronales profundas. El GELAN combina elementos de CSPnet, conocida por su eficiente planificación de la trayectoria del gradiente, y ELAN, que prioriza la velocidad de inferencia, creando una arquitectura versátil que se centra en un diseño ligero, una inferencia rápida y una mayor precisión.

Además, YoloV9 es adecuado para una variedad de aplicaciones de visión artificial, incluso en las áreas de logística y distribución, vehículos autónomos, recuento de personas minoristas o análisis deportivos. Estas aplicaciones se benefician de la capacidad de YoloV9 para detectar objetos en tiempo real con gran precisión y eficiencia.

💡 En resumen, YoloV9 representa un hito importante en la investigación de inteligencia artificial, lo que refleja la dinámica actual de búsqueda incesante para alcanzar y mantener una posición de liderazgo sobre el terreno. Los desarrolladores de YoloV9 publicaron el código fuente el GitHub, lo que facilita su adaptación a diversas tareas de visión artificial.

Versión Mejoras Compromiso Velocidad / Precisión Aplicaciones
V1 Predicción por celda de cuadrícula, método de pasada única Rápido pero menos preciso Detección básica en tiempo real (investigación)
V2 y V3 Cajas ancla, normalización por lotes Más rápido y más preciso Varias aplicaciones en tiempo real
V4 y V5 Pooling piramidal espacial, optimizaciones Equilibrio entre velocidad y precisión Entornos exigentes, como el transporte
V6 a V8 Optimizaciones específicas, arquitecturas mejoradas Muy preciso y en tiempo real Aplicaciones especializadas, como la vigilancia
V9 Mejor detección de objetos pequeños, integración con otros modelos de IA e IA explicable Mayor precisión y velocidad Aplicaciones como imágenes médicas, conducción autónoma o detección de defectos industriales


Tabla resumen de las distintas versiones y evoluciones de YOLO

A medida que evolucionó de YOLO v1 a v9, la familia de algoritmos de detección de objetos YOLO consolidó su posición como una herramienta clave en la visión artificial. Con cada versión, YOLO se ha vuelto más hábil en su capacidad para detectar objetos de diversos grados de complejidad en una variedad de escenarios, convirtiéndose en un componente esencial en los sistemas de automatización donde la detección de objetos rápida y precisa es primordial. Para obtener más información y probar YoloV9, no dudes en ir a Hugging Face 🤗!

¿Cuáles son las principales aplicaciones de YOLO en varias industrias?

YOLO, uno de los mejores algoritmos de detección de objetos, se utiliza en una variedad de áreas de la vida, lo que facilita mucho nuestra vida diaria. ¡Aquí hay una descripción general rápida de las principales industrias en las que se utiliza YOLO!

Sistemas de vigilancia

YOLO se usa ampliamente en la vigilancia para mantener la seguridad en áreas públicas como aeropuertos, centros comerciales y calles de la ciudad. Identifica rápidamente los objetos que se dejan desatendidos, como las bolsas que pueden contener materiales peligrosos y los movimientos inusuales, y alerta a las autoridades en tiempo real. Esto ayuda a prevenir la delincuencia y a responder rápidamente a las posibles amenazas, garantizando la seguridad pública.

Control y gestión del tráfico

En el campo de la gestión del tráfico, YOLO puede analizar los patrones de tráfico, identificar infracciones de tráfico y detectar accidentes tan pronto como ocurren. Las autoridades utilizan estos datos en tiempo real para optimizar los flujos de tráfico, reducir la congestión y desplegar los servicios de emergencia con mayor rapidez si es necesario. Con YOLO, las ciudades inteligentes pueden gestionar sus carreteras de forma eficaz, lo que podría salvar vidas al reducir los tiempos de respuesta a los accidentes.

Salud

En el sector de la salud, YOLO se utiliza en imágenes médicas para identificar anomalías en las exploraciones y ayudar en el diagnóstico. Si bien no es tan preciso como las herramientas de diagnóstico especializadas, acelera el análisis preliminar y señala las áreas que requieren un examen más detenido por parte de un profesional de la salud. Esta aplicación de YOLO puede acelerar la evaluación de los pacientes y ayudar a la detección temprana de enfermedades.

Automatización industrial

Las industrias de fabricación y logística se benefician de YOLO porque agiliza las operaciones al identificar los componentes en las líneas de ensamblaje, rastrear el inventario en tiempo real e identificar los defectos en los productos. Esta práctica conduce a un mejor control de calidad, una mayor eficiencia y una reducción de los costos operativos al minimizar los errores humanos y aumentar el rendimiento de la producción.

Venta al por menor

Los minoristas usan YOLO para comprender el comportamiento de los clientes y mejorar el diseño de las tiendas. Al analizar la forma en que las personas se mueven por una tienda, las empresas pueden optimizar la ubicación de las estanterías, mejorar el servicio al cliente y gestionar las colas de forma más eficaz. Esta información ayuda a crear mejores experiencias para los clientes.

Vehículos autónomos

El uso de YOLO para desarrollar IA de vehículos autónomos permite a los automóviles detectar otros automóviles, peatones y obstáculos en la carretera, lo que lo hace esencial para el proceso de toma de decisiones al conducir.

Preguntas frecuentes

La NMS es una técnica de postprocesamiento utilizada en YOLO para garantizar que cada objeto detectado se considere solo una vez. Tras predecir varias cajas delimitadoras para los objetos detectados, YOLO aplica NMS para conservar solo las cajas con mayor probabilidad y descartar las demás. Esto evita múltiples detecciones del mismo objeto y mejora la precisión del algoritmo.
El conjunto de datos Pascal VOC es una referencia en visión por computadora que proporciona imágenes estandarizadas para el reconocimiento de objetos. YOLO lo utiliza, junto con otros como COCO, para entrenar y evaluar su modelo. Entrenar con Pascal VOC permite al modelo aprender a detectar las 20 clases incluidas y validar su precisión en imágenes conocidas.
YOLO puede generar múltiples cajas delimitadoras para un solo objeto. Sin embargo, utiliza NMS para seleccionar la más precisa en base a la probabilidad de clase y el índice de intersección sobre unión (IoU). Las demás se descartan para evitar duplicaciones.
YOLO es un detector de una sola pasada, lo que significa que realiza la clasificación y la localización en una sola inferencia. No es completamente convolucional ya que incorpora capas totalmente conectadas al final. Las CNN tradicionales, en cambio, suelen ser totalmente convolucionales y se utilizan más para segmentación pixel a pixel. YOLO es más rápido y eficiente en la detección de objetos con coordenadas de cajas y clases.
No, YOLO no utiliza SVMs para clasificar objetos. En su lugar, predice directamente las probabilidades de clase para cada caja mediante clasificadores softmax o funciones logísticas, todo dentro del mismo modelo de Deep Learning, sin recurrir a métodos tradicionales como las SVM.

Una última palabra

En resumen, YOLO es un potente algoritmo de detección de objetos y hay pocos competidores que puedan competir con él en el diseño y la comercialización de productos de IA de alto rendimiento que son relativamente económicos de desarrollar. Con un excelente rendimiento de detección de objetos, funciones de detección de objetos en tiempo real y un rendimiento de detección sin igual, YOLO ya se utiliza en una amplia gama de industrias. Por lo tanto, esperamos que haya disfrutado de la información que proporcionamos en este artículo. ¡Gracias por leer!

Y si quieres saber más sobre el preparar conjuntos de datos para entrenar sus modelos YOLO, por qué no explorar los servicios que ofrece Innovadora ? En Innovatiana, entendemos la importancia de un conjunto de datos denso y bien estructurado para la eficacia de los modelos de inteligencia artificial. ¡Nos especializamos en preparar y procesar datos de calidad para maximizar el rendimiento de sus modelos YOLO!