En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

Descubra la segmentación interactiva: una nueva era para el análisis de imágenes

Escrito por
Aïcha
Publicado el
2025-03-08
Tiempo de lectura
0
min

La segmentación de imágenes consiste en dividir una imagen en regiones significativas para facilitar el análisis. Cuando ella está Interactivo, un humano guía el algoritmo (por ejemplo, con herramientas de anotación avanzadas) para obtener una segmentación precisa de áreas de interés específicas. Este enfoque permite segmentar Cualquier objeto, incluso no previstos por las clases de un modelo automático, gracias a las indicaciones del usuario. Por lo tanto, para preparar conjuntos de datos, la segmentación interactiva es valiosa para cubrir las lagunas de los métodos totalmente automáticos, al combinar la velocidad de la IA y la experiencia humana.

💡 En este artículo, exploramos los principios de segmentación interactiva, rastreemos la evolución de las técnicas (desde los métodos basados en reglas hasta las redes neuronales), presentemos sus aplicaciones principales (imágenes médicas, edición de imágenes, robótica, etc.) y analicemos los desafíos actuales y las perspectivas futuras de esta tecnología.

Interfaz de usuario CVAT (ilustración) para la segmentación interactiva: los anotadores utilizan la función Segment Anything 2 para crear máscaras en las hojas y, a continuación, las revisan y corrigen manualmente para obtener una mayor precisión (Fuente: Innovatiana)

Principio de segmentación interactiva

La segmentación interactiva implica colaboración hombre-máquina para aislar un objeto de una imagen. El usuario proporciona indicaciones visuales y el algoritmo de segmentación calcula la máscaras corresponsales. Habitualmente se utilizan varios modos de interacción:

  • Puntos de control : el usuario hace clic en algunos píxeles marcándolos como pertenecientes al objeto objetivo (positivas) o en la parte inferior (puntos negativos). A continuación, el sistema ajusta la máscara en consecuencia, lo que permite al usuario añadir más puntos hasta lograr el resultado deseado.
  • Caja abarcadora (caja delimitadora): el usuario dibuja un rectángulo aproximado alrededor del objeto de interés. Luego, el algoritmo segmentará con precisión el interior de esta caja distinguiendo el objeto de la parte inferior.
  • Garabatos /pinceladas : el usuario pinta líneas aproximadas en el objeto que se va a conservar y, posiblemente, en el fondo que se va a excluir. Estos Garabatos sirven como guía para que el algoritmo delinee áreas.

Cada nueva entrada de usuario actualiza la segmentación de forma iterativa hasta que el objeto de destino esté correctamente aislado. La gran ventaja de este enfoque es Eliminar la ambigüedad en casos complejos: el humano puede especificar qué debe segmentar la máquina. Por ejemplo, si varios objetos se tocan entre sí o si la iluminación interfiere con la escena, el usuario puede guiar el resultado con unos pocos clics. Por lo tanto, la segmentación interactiva combina precisión del control humano Y el Velocidad de cálculo del algoritmo, lo que ofrece un resultado que suele ser más fiable que un método totalmente automático (o totalmente manual) en imágenes difíciles.

Logo


¿Buscas datasets de calidad para tus modelos de Computer Vision?
No dudes en ponerte en contacto con nosotros: nuestro equipo de Data Labelers cuenta con la experiencia y conocimientos necesarios para segmentar tus imágenes y vídeos más complejos.

Evolución de las técnicas de segmentación de imágenes

La segmentación de imágenes ha evolucionado mucho en unas pocas décadas, pasando de simples métodos deterministas a algoritmos deaprendizaje profundo muy eficiente. Podemos distinguir tres etapas principales en esta evolución:

1. Métodos basados en reglas (años 1980-1990)

Los primeros procesos de segmentación se basaron en criterios fijos manualmente por expertos en procesamiento de imágenes. Entre estas técnicas clásicas, encontramos por ejemplo la Umbral (binarización de una imagen según un umbral de luminancia o color), el detección de bordes (delineación de objetos a través de sus bordes mediante el examen de gradientes de imagen) o el Región en crecimiento (agrupación de píxeles vecinos con características similares). Estos métodos»A mano» funcionan bien en casos sencillos, pero carecen de robustez tan pronto como las escenas son complejas o los ajustes de disparo variables. A menudo es necesario ajustarlos cuadro por cuadro. Sin embargo, han sentado las bases teóricas de la segmentación y todavía se utilizan para necesidades simples o como preprocesamiento.

2. Enfoques basados en el aprendizaje automático (década de 2000)

Con el progreso de aprendizaje estadístico, los investigadores han introducido modelos que pueden aprender a segmento basado en datos anotados. Por ejemplo, los métodos combinan descriptores de píxeles (color, textura, etc.) y clasificadores entrenado (SVM, bosques aleatorios...) para predecir la etiqueta (objeto o fondo) de cada píxel. Otras técnicas, como Paseos aleatorios (mercados aleatorios) o los modelos markovianos (MRF/CRF), integran la información del vecindario para mejorar la coherencia de los segmentos. En la segmentación interactiva, un algoritmo que marca esta era es el Corte gráfico (y su extensión GrabCut) que usa un modelo de gráfico para separar un objeto de forma interactiva: el usuario inicia el proceso (por ejemplo, rodeando aproximadamente el objeto) y el algoritmo optimiza un corte del gráfico de la imagen minimizando un criterio de costo. En general, estos enfoques aprenden parcialmente de los datos, lo que los hace más adaptables que las simples reglas fijas. Sin embargo, su rendimiento sigue siendo limitado por la necesidad de definir manualmente las características correctas que deben aprenderse (Características hechas a mano), y rápidamente alcanzan sus límites en imágenes muy complejas o en objetos diversos.

3. Redes neuronales y aprendizaje profundo (años 2010 hasta la actualidad)

La revolución provino de redes neuronales convolucionales (CNN) capaz de aprender automáticamente las características que son relevantes para segmentar imágenes. Modelos como U-Net, Máscara R-CNN o más recientemente segmenta cualquier cosa (SAM) de Meta han superado los límites en términos de precisión y generalización. Al alimentar estas redes con grandes conjuntos de imágenes anotadas, consiguen segmentar con precisión objetos de diversas formas y tamaños, a veces incluso en condiciones de fondo difíciles. Las técnicas modernas a menudo se mezclan codificador-decodificador (para captar el contexto global y los detalles locales) y la atención a múltiples escalas, lo que las hace muy eficaces para distinguir cada píxel de la imagen. Además, algunos modelos recientes son Rápida, es decir, aceptan instrucciones (puntos, cuadro, texto) como entrada para segmentar cualquier objetivo especificado en la imagen. Esto las hace especialmente adecuadas para la segmentación interactiva, en la que un usuario puede utilizar el punto o el clic de un usuario como Rápido para generar al instante una máscara.

Es importante señalar que, a pesar de la excelencia de las redes neuronales, los métodos tradicionales no han desaparecido por completo: en contextos donde los recursos informáticos son limitados o las imágenes son muy simples, puede bastar con establecer umbrales bien elegidos. Sin embargo, para aplicaciones industriales que requieren robustez y escala, los enfoques basados en el aprendizaje profundo dominan la segmentación de imágenes en la actualidad.

Aplicaciones en varios campos

La segmentación interactiva tiene una variedad de aplicaciones cuando se trata de aislar objetos visuales con precisión. Se usa tanto para anotar datos (creación de conjuntos de datos de formación para la IA) solo para herramientas destinadas a profesionales o al público en general. Estas son algunas de las principales áreas en las que aporta valor añadido:

Medicina e imágenes biomédicas

Segmentación de una resonancia magnética cerebral: imagen original (a) e imagen segmentada en tres tejidos: sustancia blanca (MW), sustancia gris (GM) y líquido cefalorraquídeo (LCR) (b). (Fuente: pmc.ncbi.nlm.nih.gov)

En medicina, la segmentación de imágenes permite delinear estructuras anatómicas o anomalías (tumores, órganos, lesiones, etc.) en los exámenes de imagen (resonancia magnética, tomografía computarizada, ecografía, etc.). Los métodos automáticos son útiles, pero La intervención de un especialista es a menudo necesario para corregir y refinar los resultados. De hecho, el análisis manual de volúmenes enteros lleva mucho tiempo y está sujeto a variaciones.

La segmentación interactiva acelera este proceso: un radiólogo puede, por ejemplo, activar una segmentación automática de un tumor y luego corregirlo con unos pocos clics si es necesario, en lugar de delinearlo completamente a mano. Del mismo modo, para preparar una cirugía asistida por ordenador, el cirujano puede ajustar rápidamente la zona objetivo segmentada (como un órgano a tratar) para obtener un modelo 3D preciso. Gracias a estas herramientas interactivas, obtenemos más rápido cortes confiables estructuras de interés, que ayudan con el diagnóstico, el plan de tratamiento o la creación de guías de operación personalizadas.

Edición de imágenes y diseño gráfico

Ejemplo deextracción de temas de GrabCut: al encuadrar aproximadamente al gato de la foto (izquierda), el algoritmo segmenta automáticamente al sujeto sobre un fondo transparente (derecha). Fuente: researchgate.net

Ya sea para fotografía, el publicidad O el diseño, la segmentación interactiva es una herramienta valiosa para manipular los elementos visuales. Un caso de uso común es recorte de objetos (o Eliminación de antecedentes): consiste en eliminar el fondo de una imagen para aislar al sujeto (producto, persona, etc.). Los programas de consumo, como Photoshop, integran herramientas de selección inteligentes (lazo magnético, varita mágica mejorada, etc.) que se basan en algoritmos de segmentación interactivos: el usuario indica aproximadamente el área que se va a conservar, la herramienta calcula el contorno preciso y permite refinarlo pintando las áreas mal cortadas.

Hoy en día, muchos servicios en línea ofrecen eliminar el fondo de una foto En un clic, gracias a la IA. Sin embargo, a menudo proporcionan un modo «manual» para ajustar el resultado, ya que el automático puede confundir los elementos (por ejemplo, el cabello fino con el fondo). La segmentación interactiva también se utiliza en Realidad aumentada (para colocar dinámicamente un objeto o una persona en un entorno diferente) o para coloración selectiva (aislar un elemento de color sobre un fondo blanco y negro, etc.). En todos estos casos, ofrece un control preciso al usuario a la vez que lo libera de tener que dibujar los contornos completamente a mano.

Robótica, vehículos autónomos y visión artificial

Escena urbana segmentada en tiempo real para un vehículo autónomo (cada color representa una clase)

Los sistemas robóticos y los vehículos autónomos dependen en gran medida de visión por computador para entender su entorno. En particular, el segmentación semántica proporciona una comprensión detallada de cada píxel de la imagen capturada por el robot o la cámara del automóvil: asigna una etiqueta a cada píxel (vehículo, peatón, carretera, obstáculo, edificio, etc.).

Esto es particularmente importante para la navegación, ya que el sistema necesita saber dónde está la carretera, cómo distinguir a un peatón de una farola, etc. En la mayoría de los casos, estas segmentaciones se realizan de forma totalmente automática mediante redes neuronales entrenadas en miles de imágenes urbanas. Sin embargo, el constitución de estas bases de datos La capacitación hace un uso extensivo de la segmentación interactiva: los operadores humanos anotan manualmente los ejemplos (imágenes de calles) utilizando herramientas interactivas para segmentar cada objeto, a fin de crear verdades fundamental (Ground Truth) preciso para entrenar a los modelos. Además, en robótica industrial, un operador puede utilizar la segmentación interactiva para enseñar para que un robot identifique rápidamente una pieza en particular entre otras en una línea de ensamblaje (segmentándola en unas pocas imágenes para generar ejemplos).

Por lo tanto, podemos ver que el humano interviene también aguas arriba (para producir datos anotados de alta calidad) o posiblemente En supervisión (por ejemplo, un conductor que supervisa un vehículo autónomo podría corregir la detección de un obstáculo ambiguo en tiempo real a través de una interfaz de segmentación interactiva, si tales funciones de asistencia existen en el futuro). En todos los casos, la segmentación interactiva proporciona una garantía de calidad y una red de seguridad en áreas (transporte, automatización, robótica) donde la confiabilidad es esencial.

Desafíos actuales y perspectivas futuras

A pesar de sus éxitos, la segmentación interactiva se enfrenta a varios se atreve. Por un lado, se trata de reducir aún más laesfuerzo del usuario obligatorio: idealmente, uno querría segmentar cualquier objeto con un solo clic o una sola instrucción. Los trabajos recientes van en esta dirección con modelos de cimientos similares Modelo Segmenta cualquier cosa (SAM) de Meta, capaz de generar una máscara a partir de un punto simple o de una caja adjunta proporcionada como entrada. Estos modelos tan genéricos muestran resultados impresionantes, pero no son infalibles. En la práctica, sus predicciones todavía suelen requerir la validación y la corrección humanas. Por ejemplo, observamos que una anotación producida por SAM no lo es No siempre es perfecto y que un especialista debe repetirlo para lograr la calidad requerida.

Mejore el Precisión a la primera es, por lo tanto, un desafío: esto implica redes más eficientes, que posiblemente combinen la visión y el lenguaje (estamos empezando a explorar modelos que puedan guiarse por instrucciones textuales, como «selecciona el árbol grande en el lado derecho de la imagen»).

Por otro lado, la segmentación interactiva debe adaptarse a los nuevos tipos de datos. Por ejemplo, los imágenes 3D (volumen) o el vídeo plantean desafíos adicionales: ¿cómo puede un usuario guiar eficazmente la segmentación en una secuencia temporal o en un volumen? Hay que inventar herramientas para propagar las correcciones a lo largo del tiempo o según secciones tridimensionales, a fin de evitar que los humanos tengan que repetir todo cuadro por cuadro. Las áreas de investigación se centran en aprendizaje continuo : un sistema interactivo podría aprender a medida que el usuario hace correcciones, para evitar repetir los mismos errores. Luego hablamos de segmentación interactiva adaptativa, donde el modelo se personaliza según las preferencias del operador o según los datos específicos encontrados.

Otro desafío reside en laexperiencia de usuario en sí mismo: hacer que la interfaz de anotación sea lo más intuitiva y eficiente posible. Por ejemplo, necesitas comentarios visuales instantáneos (para que el usuario vea el efecto de sus clics en tiempo real), sugerencias inteligentes (el sistema podría sugerir de forma proactiva la segmentación de dichos objetos si el usuario duda) y la capacidad de deshacer o refina localmente sin tener que volver a empezar. La latencia debe ser mínima para permitir una interacción fluida: esto implica optimizar los algoritmos (algunos trabajos recientes apuntan a modelos livianos que puedan ejecutarse en tiempo real en la CPU).

A pesar de estos desafíos, las perspectivas de la segmentación interactiva son muy prometedoras. Con el auge de modelos de IA cada vez más potentes y generalistas, podemos imaginar herramientas capaces de «segmenta todo» casi al instante, lo que solo requiere una validación rápida por parte del usuario. En muchos campos profesionales, estos avances ahorrarán un tiempo precioso a los expertos (médicos, ingenieros, etc.), que podrán centrarse en el análisis en lugar de en la tediosa preparación de los datos... incluso si estas herramientas no eximen en modo alguno el establecimiento de un proceso de etiquetado completo y eficaz (o LabelOps).

En conclusión, la segmentación interactiva ilustra la complementariedad entre los humanos y la IA: los algoritmos proporcionan velocidad de ejecución y la capacidad de procesar grandes volúmenes de imágenes, mientras que la experiencia humana garantiza la relevancia y la calidad del resultado final. Los esfuerzos de investigación actuales tienen como objetivo minimizar la intervención necesaria sin eliminarla por completo, de modo que decisión final permanece en manos humanas ilustradas. Apostemos a que en un futuro próximo, gracias a la mejora continua de los modelos e interfaces, la segmentación interactiva se convertirá en una herramienta aún más valiosa. transparente y poderosa, integrándose de forma natural en muchos flujos de trabajo sin siquiera darse cuenta.

Fuentes para ir más allá

- Para obtener una introducción general a las distintas técnicas de segmentación de imágenes, puede consultar 🔗 Este artículo de Innovatiana .

- El 🔗 Blog de tecnología Kili detalla los principios de la segmentación interactiva y cómo interactúa.

- Por último, para descubrir el modelo Segment Anything de Meta, que prefigura el futuro de la segmentación universal, le sugerimos que lea el modelo Segment Anything de Meta, que presagia el futuro de la segmentación universal 🔗 SAM: todo lo que necesitas saber.

¡Feliz exploración!