En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

Introducción a la detección de objetos en visión artificial [2025]

Escrito por
Nanobaly
Publicado el
2024-01-26
Tiempo de lectura
0
min

Como seres humanos, a menudo tenemos problemas para identificar y controlar rápidamente todos los objetos que nos rodean, pero los ordenadores, gracias a tecnología de detección de objetos, excelente en este campo. Esta avanzada capacidad de inteligencia artificial permite a las máquinas no solo detectar y enumerar objetos en imágenes o vídeos con notable precisión, pero también para clasificarlos en varias categorías e identificar objetos como personas, animales o automóviles, por ejemplo.

Además, estos sistemas pueden identificar con precisión la ubicación exacta de un objeto dentro de una imagen. Este salto tecnológico, que ha evolucionado considerablemente en las dos últimas décadas, ha abierto nuevos horizontes además de la investigación en inteligencia artificial. Resulta fundamental en aplicaciones reales, como los vehículos autónomos que interpretan situaciones de tráfico complejas, y en el comercio minoritario, agilizar los procesos de pago (por ejemplo, es una técnica muy utilizada en las cajas automáticas más recientes).

Los últimos algoritmos de detección de objetos, que mejoran constantemente en términos de precisión y velocidad, están transformando las industrias para mejor tareas de visión artificial En la vigilancia automatizada, el monitoreo ambiental incluye un diagnóstico de salud avanzado, que muestra el impacto más profundo de la IA en la vida diaria.

Con este artículo, ofrecemos a Introducción a la detección de objetos en visión artificial, para ofrecer una visión general de los métodos y algoritmos de detección de objetos con IA más avanzados.

Logo


¿Necesita ayuda con sus casos de uso relacionados con la detección de objetos?
Acelere sus tareas de etiquetado de datos y reduzca los errores hasta 10 veces. Colabore con nuestros expertos en Data Labeling ahora mismo.

Introducción: los conceptos básicos de la detección de objetos

Antes de profundizar en los detalles del «Como», veamos primero el «Qué». ¿Qué es la detección de objetos? ¿De manera concreta? ¿Para qué sirve y cómo funciona? Estas son las únicas preguntas que pretendemos responder en este artículo.

Detección de objetos: ¿qué es?

La detección de objetos es una tecnología de vanguardia en aprendizaje automático y un aprendizaje profundo que permite a las computadoras identificar y localizar objetos con precisión en imágenes o vídeos. Relevancia para un drama de inteligencia artificial llamado «Visión por computadora».

Los programas para la detección de objetos informáticos tienen su propio objetivo Replicar los complejos procesos de la visión humana mediante diversos datos de entrenamiento y la organización de algoritmos complejos: las máquinas perciben y comprenden el mundo visual con un nivel de precisión y sofisticación que antes estaba reservado exclusivamente a la percepción humana.

El campo de la «visión artificial» es uno de los campos de más rápida evolución. La clave de su rápido progreso es la importante necesidad de detectar objetos. Este artículo tiene como objetivo el de proporcionar Resumen de los principales conceptos de esenciales a la comprensión de los mecanismos de detección de objetos por parte de una máquina.

Hagámoslo simple: La detección de objetos implica la creación de cajas circundantes alrededor de objetos previamente identificados. Estas cajas circundantes se utilizan para localizar con precisión las posiciones exactas de los objetos en una escena específica o para restringir su movimiento dentro de ellos.

¿Por qué es importante la detección de objetos? Ya forma parte de nuestra vida diaria...

La detección de objetos en la visión artificial es mucho más que la identificación de objetos; es un mecanismo esencial para comprender contextos visuales complejos. Esta tecnología permite realizar tareas matizadas como Distinguir instancias de objetos individuales (segmentación de instancias), Entender las escenas para generar textos descriptivos (añadir títulos a las imágenes), y Detección y seguimiento continuo de objetos en tiempo real A lo largo de las secuencias de vídeo.

Además, sus aplicaciones se han extendido a varios ámbitos, desde el aumento de la seguridad pública pasando por la detección y el seguimiento de peatones y automóviles, hasta la transformación del comercio minoritario con cajas que permiten pagos automatizados, sin necesidad de escanear cada artículo de forma individual.

Los avances en los modelos de aprendizaje automático y profundo y en las redes neuronales han elevado la detección de objetos a nuevos niveles, lo que permite el procesamiento en tiempo real y una alta precisión, un algoritmo importante para entornos dinámicos como la conducción autónoma o los sistemas de vigilancia avanzados. Estos avances ponen de relieve laimpacto transformador de la detección de objetos en el desarrollo técnico, pero también en la vida diaria.

Un caso simple de detección de objetos: vehículos, semáforos y peatones (Fuente: Nvidia)

Una explicación perfecta del principio, un concepto clave en la inteligencia artificial

La idea es EIntroduzca un programa de computadora para reconocer diferentes tipos de objetos, para detectar y detectar objetos y, de forma continua, localizar automáticamente los objetos en su posición precisa de acuerdo con el píxel de las nuevas imágenes.

Para saludar, El sistema funciona con kilómetros de fotos anotadas, en el sentido de que cada objeto de interés se identifica con un »Caja Abarcatora». Por ejemplo, los gatos están delimitados por cuadrados azules, los perros por cuadrados rojos, etc.

Vista previa de una interfaz de anotación para IA. (Fuente: CVAT)

¿Cómo funciona? Los pasos principales

Sobre la base de múltiples datos, es necesaria una variedad de imágenes y fechas de entrenamiento, El algoritmo de IA detectará progresivamente patrones, texturas y formas comunes en las imágenes de prueba se puede utilizar para cada categoría y aprenderá a reconocerlas. De forma continua, podrás identificar automáticamente cualquier imagen nueva.

Diferencias con la clasificación de imágenes y la segmentación semántica

Antes de entrar en los aspectos técnicos de la detección de objetos, veamos cuál es la diferencia entre esta tecnología y otras dos técnicas de procesamiento de imágenes relacionadas: clasificación y segmentación semántica de imágenes.

Una representación explícita y completa de los principales conceptos de anotación aplicados en Computer Vision (Fuente: Kang et al.)

¿Cuál es la diferencia entre los conceptos de clasificación de imágenes y detección de objetos?

Mientras que el clasificación de imágenes Simplemente conforma con Asignar una etiqueta global a una imagen (por ejemplo, «playa»), sin localizar objetos específicos, la detección de objetos identifica cada presencia de un objeto relevante (sombras, personas,...) en la imagen de entrada y delinea su posición en las imágenes de entrada.

La clasificación de imágenes implica pasar una imagen completa a través de un clasificador, normalmente una red neuronal profunda, para obtener una etiqueta o rótulo correspondiente. Los clasificadores analizan la imagen completa, pero no proporcionan información sobre la ubicación específica del objeto etiquetado dentro de la imagen.

Por otro lado, La detección de objetos es una técnica más avanzada Que nadie clasifica los objetos excepto que también los delimitan dibujando un recuadro que el anillo.

¿Cuál es la diferencia con la segmentación semántica?

En cuanto a la segmentación semántica de imágenes, Es una técnica que detecta y separa varios objetos, con mayor precisión que una simple caja. En la segmentación semántica de imágenes, se pueden identificar todas las imágenes asociadas a una etiqueta en particular, pero este método no delinea los contornos exactos de cada objeto individual.

Por otro lado, la detección de objetos, en lugar de segmentar objetos, Delinea con precisión las posiciones de cada instancia de objeto círculos separados en cajas circundantes.

Por último, el segmentar instancias Combina lo mejor de ambos mundos: esta técnica implica determinar Qué píxeles de una imagen pertenecen a una clase de objeto específica. En primer lugar, identifique las instancias de los objetos individuales y, de forma continua, segmente cada instancia en los 4 delimitadores detectados, que en este contexto se denominan regiones de interés.

Logo


💡 ¿Sabía usted?
La anotación de datos es un trabajo complejo que requiere una experiencia específica. ¡No delegue más esta tarea a sus becarios Data Scientists: mejor recurra a expertos en Data Labeling!

Detección de objetos: una breve comparación con otras técnicas de visión por computador

En comparación con el reconocimiento facial, que identifica un tipo único de detección de objetos en tiempo real, o la detección de texto, que identifica palabras escritas, la detección de objetos es una tecnología mucho más compleja. De hecho, debe Aprenda a identificar y clasificar varios objetos, cuyas formas cambian según el ángulo de visión.

Modelos y algoritmos de detección de objetos

El arte de los sistemas de detección de objetos reside en los algoritmos utilizados. Sin necesidad de introducir fórmulas matemáticas complejas (puedes consultar estos recursos Si está interesado), podemos distinguir 2 familias principales de enemigos para los detectores de objetos: Métodos de «una sola vez» y métodos de dos pasos.

Enfoques de un solo paso o «de una sola vez»

Los enfoques «de una sola vez», al igual que su número indicativo, intentan llevar a cabo todo el análisis mediante Pase único. ¿Apéciate un enfoque único? Red neuronal convolucional directamente a la imagen para detectar y clasificar objetos simultáneamente.

Ejemplo de YOLO

El ejemplo más conocido de un algoritmo de un solo paso es sin duda YOLO (Solo mira una vez). Gracias a una arquitectura neuronal extremadamente eficiente, ofrece excelentes resultados y es más rápido que sus competidores. Una solución ideal para aplicaciones en tiempo real, como las marcas de verificación autónomas.

Enfoques en dos pasos

La detección de objetos mediante algoritmos R-CNN (redes neuronales convolucionales en regiones) se basa en los tres procesos siguientes:

1. Busque áreas de la imagen que podrían contener un objeto. Estas regiones se denominan propuestas regionales.

2. Extraiga las características de la CNN de las regiones propuestas y clasifique los objetos utilizando las características extraídas.

Hay tres variantes de una R-CNN. Cada variante pretende optimizar, acelerar o mejorar los resultados de uno o más de estos procesos.

R-CNN

El Detector R-CNN Propuestas regionales generadas por primera vez utilizando un algoritmo como Edge Boxes. Las regiones propuestas están creciendo en tamaño y se están redimensionando. Luego, CNN clasifica estas regiones cortas y redimensionadas. Finalmente, los castillos que contienen las regiones propuestas se refinan con una máquina de soporte vectorial (SVM) que utiliza las características de la CNN.

Principio de R-CNN (Fuente: Mathworks.com)

R-CNN Fast

Aligual que en el detector R-CNN, el Detector rápido R-CNN También se utilizó un algoritmo como Edge Boxes para generar propuestas regionales. A diferencia del detector R-CNN, que corta y redimensiona las regiones propuestas, el detector Fast R-CNN procesa la imagen completa. Dado que un detector de R-CNN debe clasificar cada región, Fast R-CNN combina las características de la CNN correspondientes a cada región propuesta. El Fast R-CNN es más eficiente que el R-CNN porque el detector Fast R-CNN compara el cálculo de las regiones que se superponen.

Principe du Fast R-CNN (Source : Mathworks.com)

R-CNN más rápido

El Detector R-CNN más rápido añade una red de propuestas regionales (RPN) para generar propuestas regionales directamente en la red, en lugar de utilizar un algoritmo externo como Edge Boxes. El RPN utiliza cajas de anclaje para la detección de objetos. La generación de propuestas regionales en la red es más rápida y se adapta mejor a sus datos.

Principio de R-CNN (Fuente: Mathworks.com)

¿Qué enfoque debe elegir?

No existe un enfoque único para la detección de objetos. Cada método tiene sus ventajas y desventajas. La elección de los métodos de detección de objetos depende de la aplicación objetivo y de las restricciones en términos de precisión, velocidad y consumo de recursos.

Algunos consejos para elegir un modelo de detección según sus casos de uso...

Por ejemplo, para un dron que necesita escanear palés en un almacén, una solución rápida como YOLO será más que suficiente. Por otro lado, en un contexto médico en el que la precisión es crucial, por lo general se preferirá un modelo de R-CNN más lento, pero con límites más precisos.

La detección de objetos al servicio de la vida diaria

Si bien es muy avanzado desde el punto de vista tecnológico, la detección de objetos ya tiene numerosas aplicaciones concretas para el público en general. Desde el desbloqueo de teléfonos inteligentes mediante el reconocimiento facial hasta la moderación automática de las redes sociales y el control de calidad industrial, esta tecnología simplifica y asegura ciertas tareas diarias a las que no siempre prestamos atención.

Detección de personas

Entre las aplicaciones para consumidores de los algoritmos de detección de objetos que ya forman parte integral de nuestra vida diaria, la detección y el reconocimiento de personas son, sin duda, los más extendidos.

Llevado por rápido progreso en los algoritmos de aprendizaje profundo y aprendizaje automático En los últimos años, esta compleja tarea de localizar humanos en imágenes y vídeos ha mejorado drásticamente, hasta el punto de integrarse en muchas de nuestras actividades, a menudo sin nuestro conocimiento.

Ejemplos cotidianos

¿Quién nunca ha desbloqueado su smartphone con un simple vistazo, gracias al reconocimiento facial ? Estas técnicas de verificación de identidad rápidas y sencillas son posibles gracias a la detección de rostros. Otro ejemplo: cuando descargas un foto de perfil en una red social, los modelos de detección entran en acción inmediatamente para difuminar o bloquear contenido inapropiado. Por último, en nuestras ciudades, cámaras inteligentesLos equipos equipados con esta tecnología miden automáticamente el respeto de las distancias sociales o el uso de máscaras para luchar contra las epidemias.

Videovigilancia inteligente gracias a la IA

La detección de objetos también automatiza las tareas de videovigilancia, detección de anomalías, detección de anomalías, detección de peatones y detección de anomalías que consume mucho tiempo, ya sea en espacios públicos, puntos de venta o sitios industriales sensibles.

Gracias al análisis en vivo de las imágenes capturadas, el software puede generar alertas cuando un paquete sospechoso es abandonado o una persona cruza una barrera prohibida. Es una forma eficaz de ayudar a los guardias de seguridad al llamar su atención sobre los eventos relevantes.

Detección de objetos para vehículos autónomos

Otra área en la que la detección de objetos desempeña un papel clave es conducción autónoma. Para abrirse paso entre el tráfico, los vehículos del futuro se basan en una batería completa de sensores de vídeo que escanean constantemente el entorno en busca de peatones, ciclistas, otros coches o incluso animales, a fin de adaptar su trayectoria en tiempo real.

Los modelos entrenados para detectar cientos de tipos diferentes de objetos nos permiten analizar varios flujos simultáneamente con una precisión notable, lo que brinda mayor seguridad a las carreteras del mañana.


Inspección visual en la industria

La detección de defectos en los productos manufacturados ahora es mucho más fácil en las líneas de producción. Las cámaras equipadas con cerebros artificiales inspeccionan cada habitación buscando el menor problema: falta de pintura, piezas mal colocadas, arañazos, etc. Un aumento considerable de productividad y trazabilidad para los fabricantes, ¡todo ello sin intervención humana!

Análisis de vídeo quirúrgico para entrenar modelos de visión artificial... para diagnósticos más precisos

Las imágenes de vídeo quirúrgicas constituyen un flujo de datos complejo y a menudo ruidoso capturado por cámaras endoscópicas durante procedimientos médicos críticos. La tecnología de detección de objetos desempeña un papel clave en la identificación de anomalías elusivas, como pólipos o lesiones, que requieren una cirugía inmediata. Además, cabe imaginar un mundo en el que esta tecnología de vanguardia desempeñe una función adicional al proporcionar actualizaciones en tiempo real al equipo médico, lo que les permite supervisar de cerca la evolución del procedimiento quirúrgico.

Datos de operaciones quirúrgicas anotados y utilizables por modelos de IA (Fuente: SDSC)

Ventajas y desventajas de los modelos de detección de objetos

La detección de objetos es una poderosa técnica de visión artificial con sus propias fortalezas y limitaciones. Comprender cuándo usar la detección de objetos y cuándo considerar métodos alternativos es importante para resolver problemas de manera efectiva en una variedad de escenarios.

Aquí hay un análisis de ventajas y desventajas de los diversos métodos de detección de objetos.

Algunas ventajas...

Efectivo para objetos de tamaño mediano

La detección de objetos es excelente cuando se trata de objetos que ocupan una porción moderada de una imagen, normalmente entre el 5% y el 65% del área de la imagen. Es competente para reconocer objetos de varios tamaños dentro de este rango.

Efectivo cuando los límites de los objetos son claros

Esta técnica es muy eficaz para detectar objetos con límites bien definidos. Los objetos con bordes y formas distintos son especialmente adecuados para la detección.

Reconocimiento de clústeres

La detección de objetos puede identificar clústeres de objetos como una sola entidad. Cuando los objetos se agrupan muy juntos, tiene la capacidad de tratarlos de forma colectiva, lo que puede resultar ventajoso en una variedad de aplicaciones.

Ubicación de alta velocidad

Los procesos de detección de objetos pueden lograr un rendimiento en tiempo real o casi en tiempo real, que a menudo supera los 15 fotogramas por segundo (fps). Esta capacidad de localización rápida tiene un valor incalculable en situaciones en las que la velocidad es importante.

Versatilidad para escenarios con varios objetos

La detección de objetos es adecuada para escenarios en los que es necesario identificar varios objetos simultáneamente en una secuencia de imagen o vídeo. Esta versatilidad es especialmente valiosa en aplicaciones como la vigilancia, donde la detección de varios objetos en una escena es fundamental para la seguridad y la vigilancia.

Numerosas aplicaciones en el mundo real

La detección de objetos tiene aplicaciones generalizadas en una variedad de campos del mundo real, incluidos los automóviles autónomos, las imágenes médicas para la detección de tumores y la venta minorista para la gestión del inventario. Su adaptabilidad y precisión contribuyen a su amplia utilidad.

... pero también desventajas:

Limitaciones para objetos alargados y formas muy irregulares

La detección de objetos puede no ser óptima para objetos alargados o muy delgados, como un lápiz. En esos casos, el objeto puede ocupar una pequeña fracción de la caja que lo rodea, lo que provoca una tendencia hacia los píxeles del fondo y no hacia el objeto en sí.

La detección de objetos también puede resultar difícil con objetos que tienen formas muy irregulares o complejas, como las formaciones geológicas de forma irregular. La precisión de la detección puede verse comprometida cuando los objetos se desvían considerablemente de las formas estándar.

Ineficiente para conceptos no físicos

Los objetos que carecen de una presencia física tangible, como descriptores como «soleado», «brillante» o «inclinado», se tratan mejor mediante técnicas de clasificación de imágenes. La detección de objetos puede tener dificultades para gestionar de forma eficaz estos conceptos abstractos.

Inadecuado cuando los límites son ambiguos

Cuando los objetos tienen límites difusos desde diferentes ángulos, la segmentación semántica puede ser una opción más apropiada. Por ejemplo, las imágenes aéreas que contienen el cielo, el suelo o la vegetación, que carecen de límites bien definidos, se segmentan mejor con este enfoque.

Gestión de la oclusión que puede resultar difícil

Los objetos que con frecuencia se ocultan (se ocultan parcialmente) pueden representar un desafío para la detección de objetos. En estos casos, si es posible, la segmentación de instancias es la opción preferida en las redes de detección en dos etapas, ya que permite comprender y segmentar objetos ocultos con mayor precisión que la detección básica de casillas delimitadoras.

Uso intensivo de recursos

La implementación de modelos de detección de objetos a menudo requiere importantes recursos informáticos, incluidas GPU o TPU potentes. Esta demanda de recursos puede ser una limitación en entornos con recursos limitados o en dispositivos periféricos con capacidades de procesamiento limitadas.

Complejidad del proceso de anotación de datos

La creación de conjuntos de datos de formación de alta calidad para los modelos de detección de objetos, que implican marcar con precisión los límites y las categorías de los objetos, puede llevar mucho tiempo y mucho trabajo. La calidad de los datos de entrenamiento afecta directamente al rendimiento del modelo, por lo que la anotación de datos es una consideración fundamental.

Limitado al espacio 2D para un mejor rendimiento

La detección de objetos funciona principalmente en un espacio bidimensional y puede encontrar dificultades a la hora de identificar objetos en entornos tridimensionales, como la detección de objetos en escaneos médicos volumétricos o en aplicaciones de realidad aumentada donde la información de profundidad es crucial.

La eficacia de la detección de objetos depende de las características específicas de los objetos y escenas a los que se enfrente. Para tomar decisiones informadas, es fundamental evaluar si la detección de objetos se ajusta a la naturaleza del problema o si las técnicas alternativas, como la segmentación de instancias, la clasificación de imágenes o la segmentación semántica, podrían ser más adecuadas para lograr tus objetivos. La comprensión de estos matices le permite seleccionar el enfoque más adecuado para sus necesidades específicas de visión artificial.

En conclusión...

Está claro que la detección de objetos ya se ha convertido en una parte integral de nuestra vida diaria, sin nuestro conocimiento. Ya se trate de moderar las redes sociales o de optimizar las líneas de producción, esta tecnología de inteligencia artificial proporciona su parte de asistencia discreta.

Sin embargo, en medio de los notables logros en la detección de objetos, debemos reconocer los desafíos que quedan en el horizonte. Uno de estos desafíos es el gestión de grandes volúmenes de datos de entrenamiento y la multitud de ángulos y posturas de objetos. Si bien la detección de objetos ha logrado avances significativos a la hora de hacer frente a las variaciones en la orientación de los objetos, se necesitan más avances para reforzar su solidez en escenarios complejos. Superar este desafío requerirá una innovación continua y el perfeccionamiento de los algoritmos de detección de objetos.

Sin embargo, a pesar de estos desafíos, el ritmo del progreso en inteligencia artificial sigue siendo implacable. Con una investigación y un desarrollo continuos, parece obvio que elLas aplicaciones de detección de objetos seguirán diversificándose y evolucionando. En los próximos años, se espera que las técnicas de detección de objetos se propaguen en áreas como la vigilancia de la salud o el medio ambiente. En el campo de la salud, contribuirán a la detección temprana de enfermedades mediante imágenes médicas, ayudando al diagnóstico y tratamiento oportunos de los pacientes. Al monitorear el medio ambiente, permitirán monitorear y mitigar los impactos del cambio climático.

En conclusión, aunque persisten desafíos, la trayectoria del progreso en inteligencia artificial nos asegura que la detección de objetos es una técnica prometedora que se beneficiará de ser adoptado por los equipos de I+D para crear productos industriales y de consumo cada vez más sofisticados.

¿Ha identificado un caso de uso que requiera la aplicación de técnicas de detección de objetos? Problema: no sabe cómo obtener los datos de formación que necesita para tener éxito en su proyecto. Que no cunda el pánico, Innovatiana es un jugador especializado en la anotación de datos para la IA: nuestro expertos y etiquetadores de datos especializados estamos ahí para ayudarte crear conjuntos de datos de calidad. No dudes en ponerte en contacto con nosotros.