En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

Comprender la divergencia de KL para entrenar mejor sus modelos de IA

Escrito por
Daniella
Publicado el
2024-10-24
Tiempo de lectura
0
min

Hablemos de las matemáticas, más específicamente de la teoría de la probabilidad. Nos gustaría mencionar una medida muy útil en las aplicaciones de inteligencia artificial, a saber, la «divergencia KL». Ley Divergencia KL, o discrepancia de Kullback-Leibler, es una medida muy utilizada en el aprendizaje automático y la teoría de la información para cuantificar la diferencia entre dos distribuciones de probabilidad. También se conoce con el nombre deEntropía relativa y se atribuye al matemático Solomon Kullback y a su compinche, también matemático, Richard Leibler, por su contribución al criptoanálisis durante la década de 1950. Permiteevaluar en qué medida una distribución de probabilidad estimada difiere de una distribución de referencia, a menudo denominada distribución real.

En el modelado y desarrollo de la inteligencia artificial, esta noción está cobrando importancia, especialmente en los procesos de entrenamiento de modelos donde el objetivo es minimizar el error entre las predicciones del modelo y los resultados esperados.

🤔 Por qué interesarse por esta medida... es un tema que puede parecerle complejo para este blog que pretende ser general y quiere popularizar los mecanismos de la inteligencia artificial...

Sin embargo, entender el Divergencia KL permite no solo mejorar la precisión de los modelos, sino también optimizar el trabajo de preparación de los datos, un aspecto fundamental para producir conjuntos de datos de calidad y garantizar la confiabilidad de los algoritmos de aprendizaje automático. Este concepto, si bien su enfoque es intuitivo (Eso es lo que vamos a ver en este artículo), requiere un conocimiento profundo para aplicarse de manera efectiva en el contexto de la inteligencia artificial.

¿Qué es el KL (Kulback Leibler) ¿Discrepancia?

La divergencia KL, o divergencia de Kullback-Leibler, es una medida utilizada en la teoría de la información y el aprendizaje automático para cuantificar la diferencia entre dos distribuciones de probabilidad. Más específicamente, permite medir en qué medida una distribución de probabilidad estimada (a menudo una predicción de aproximación o distribución) difiere de una distribución de probabilidad de referencia (a menudo denominada distribución verdadera o real).

¿Cómo funciona?

La discrepancia KL entre dos distribuciones de probabilidad cuadrantes (x) y Sistema operativo (x) se expresa mediante la fórmula siguiente:

Formule de la KL divergence

En esta ecuación:

  • cuadrantes (x) representa la distribución real o la distribución objetivo.
  • Sistema operativo (x) representa la distribución aproximada o pronosticada.
  • es el conjunto de eventos o posibles resultados.

La divergencia KL mide la diferencia entre estas dos distribuciones calculando, para cada valor posible de , la diferencia logarítmica entre las probabilidades de cuadrantes (x) y Sistema operativo (x), ponderado por la probabilidad en cuadrantes (x). La suma de estos valores proporciona una medida general de la discrepancia.

Esta medida no es simétrica, lo que significa que DKL(P. EJ.)CHAN|SALIDAS (X) > > > > DKL(cuadrantes (x) x (x)), porque la discrepancia depende de la distribución de referencia elegida.

En la práctica, cuanto más cerca esté la discrepancia de cero, mayores serán las distribuciones cuadrantes (x) y Sistema operativo (x) son similares. Una alta discrepancia indica una diferencia significativa entre las distribuciones, lo que sugiere que Sistema operativo (x) no modela correctamente cuadrantes (x).

Cálculo e interpretación de la divergencia KL

La interpretación de esta medida es importante para comprender su utilidad en el aprendizaje automático y la teoría de la información. Estos son algunos puntos clave:

  • 𝐷 ====2 (R2,,, y,) = 0 : Esto significa que las distribuciones cuadrantes (x) y Sistema operativo (x) son los mismos. No hay ninguna discrepancia entre ellos.
  • 𝐷 ====2 (Completos) > 0 : En este caso, la distribución cuadrantes (x) es más informativo que la distribución Sistema operativo (x). Esto indica que Sistema operativo (x) no capta las características de cuadrantes (x).
  • 𝐷 ====2 (LLENO) < 0 : Aunque teóricamente es posible, esta situación es poco frecuente y con frecuencia se debe a errores de cálculo o distribuciones mal definidas.

Es importante señalar que la divergencia KL es asimétrica, lo que significa que no constituye una verdadera distancia matemática entre dos distribuciones de probabilidad. Esta asimetría refleja el hecho de que la medida depende del orden de las distribuciones comparadas, lo que resalta la cantidad de información que se pierde cuando (Q) se usa para aproximar cuadrantes (x).

¿Cuál es la relación entre KL Divergence y la optimización de los modelos de IA?

La relación entre la divergencia de KL y la optimización de los modelos de inteligencia artificial (IA) radica en su función como función de costo o pérdida al entrenar modelos probabilísticos, especialmente en redes neuronales y modelos de clasificación.

En el aprendizaje automático, el objetivo es minimizar la diferencia entre las predicciones del modelo Sistema operativo (x) y los resultados reales cuadrantes (x). La divergencia de KL a menudo actúa como una función de pérdida en este contexto.

Por ejemplo, en arquitecturas como Codificadores automáticos variacionales (VAE), la divergencia KL se usa para regularizar el modelo. Al minimizar esta discrepancia, se garantiza que la distribución pronosticada por el modelo se mantenga cerca de la distribución real de los datos, lo que mejora la generalización del modelo.

Uso en optimización

Al entrenar modelos de IA, la divergencia de KL se integra en la función de pérdida para guiar la optimización. Al minimizar esta discrepancia, las predicciones del modelo Sistema operativo (x) acercarse lo más posible a la distribución real cuadrantes (x), lo que permite obtener resultados más precisos.

En arquitecturas como redes neuronales Autocodificadores variacionales (VAE), la divergencia de KL desempeña un papel central al imponer una regularización que permite ajustar el modelo para que no se aleje demasiado de la distribución inicial de los datos. Esto ayuda a mejorar la generalización del modelo y evita que aprenda en exceso los detalles específicos de los datos de entrenamiento.

Prestaciones

Al optimizar la divergencia de KL, los modelos de IA pueden capturar mejor la estructura probabilística de los datos y producir resultados más precisos, consistentes e interpretables. Esto conduce a una mejora del rendimiento general, especialmente en tareas como la clasificación, la generación de datos o la anotación probabilística de datos.

Por lo tanto, la divergencia de KL desempeña un papel clave en el refinamiento de los modelos de IA al alinear sus predicciones con la realidad observada y, al mismo tiempo, guiar el proceso de aprendizaje hacia soluciones más óptimas.

¿Cómo contribuye KL Divergence a la detección de anomalías en los modelos de IA?

En el contexto de la detección de anomalías, la divergencia KL mide la diferencia entre la distribución de probabilidad observada de los datos y una línea base o una distribución de referencia, que representa un comportamiento normal o esperado. Este proceso funciona de la siguiente manera:

Definición de una distribución normal

El modelo se entrena primero con un conjunto de datos que representan comportamientos o eventos que se consideran normales. Esto permite definir una distribución de referencia cuadrantes (x), que refleja la probabilidad de que ocurran eventos en condiciones normales.

Comparación con una nueva distribución

Al evaluar datos nuevos, el modelo genera una distribuciónSistema operativo (x) en función de los datos observados. Si esta nueva distribución se desvía significativamente de la distribución normal cuadrantes (x), esto indica una posible anomalía.

Medición de divergencia

La divergencia KL se usa luego para cuantificar esta diferencia entre la distribución normal. cuadrantes (x) y la distribución observada Sistema operativo (x). Una divergencia alta en el KL indica que la nueva observación se desvía bruscamente de lo normal, lo que sugiere la presencia de una anomalía.

Aplicaciones de KL Divergence en la ciencia de datos

La divergencia Kullback-Leibler tiene numerosas aplicaciones prácticas, desde la detección de desviaciones de datos hasta la optimización de arquitecturas de redes neuronales. Este párrafo explora sus principales aplicaciones y las ilustra con ejemplos concretos y variados.

1. Monitorear las desviaciones de datos (Deriva de datos)

Fondo

Los datos de un modelo pueden cambiar con el tiempo, lo que puede resultar en deriva de datos (Deriva de datos). Es necesario detectar estas desviaciones para mantener el rendimiento de los modelos de aprendizaje automático. La divergencia KL se utiliza para comparar la distribución de los datos actuales con la de los datos históricos con el fin de detectar cualquier variación significativa.

Ejemplo

Supongamos que ha entrenado un modelo de detección de fraudes en las transacciones con tarjetas bancarias. Si el comportamiento de los usuarios cambia (por ejemplo, si observas un aumento repentino en las transacciones en línea o un cambio en los importes), esto podría indicar un cambio en los datos. Al comparar la distribución de los importes de las transacciones actuales con la de hace un mes, la divergencia KL permite medir en qué se diferencian estas distribuciones y si es necesario volver a adaptar el modelo.

Ventaja

Este método permite una reacción proactiva para ajustar los modelos a las nuevas condiciones de los datos reales, garantizando así una mayor robustez.

2. Optimización de Autocodificadores variacionales (JARRÓN)

Fondo

Los codificadores automáticos variacionales (VAE) son redes neuronales que se utilizan para generar datos realistas a partir del espacio latente. Proyectan los datos de entrada en una distribución de probabilidad (normalmente una distribución gaussiana), y la divergencia KL se usa para comparar esta distribución generada con una distribución de referencia

Ejemplo

Tomemos un VAE formado en imágenes de rostros humanos. El VAE toma una imagen como entrada, la comprime en un espacio latente (una distribución gaussiana) y luego reconstruye una imagen a partir de esa distribución. La divergencia KL se utiliza para regularizar esta proyección y garantizar que la distribución latente no se desvíe demasiado de la distribución de referencia.

Ventaja

Esto ayuda a estabilizar el entrenamiento en bicicleta eléctrica, al evitar que el modelo genere distribuciones demasiado alejadas de la realidad. Como resultado, las imágenes generadas por el modelo son cada vez más realistas.

Arquitectura variacional de codificadores automáticos (ilustración) - Fuente: Siddhartha Subray, Stefan Tschimben, Kevin Gifford

3. Redes generativas de confrontación (GAN)

Fondo

Redes generativas adversarias (GAN) involucran dos redes: un generador que intenta crear datos realistas (como imágenes o texto) y un discriminador que intenta distinguir los datos reales de los generados. La divergencia KL se usa para medir la diferencia entre las distribuciones de datos reales y generados.

Ejemplo

Tomemos el caso de una GAN capacitada para generar obras de arte digitales. El generador produce imágenes intentando engañar al discriminador, que trata de distinguir las obras de arte reales de las imágenes generadas. La divergencia KL ayuda a medir esta discrepancia: el generador busca minimizar la discrepancia (haciendo que las imágenes generadas sean lo más realistas posible), mientras que el discriminador intenta maximizar esta divergencia (distinguiendo claramente las imágenes falsas).

Ventaja

Esto permite un proceso de formación competitivo, en el que ambas redes se mejoran entre sí, lo que lleva a resultados cada vez más convincentes en la generación de datos

Ilustración del principio de redes generativas de confrontación - Fuente: Zhengwei Wang, Qi She, T. Ward

4. Medición de anomalías en series temporales

Fondo

En el análisis de series temporales, la detección de anomalías es importante, especialmente en sectores críticos como el monitoreo de infraestructuras o las finanzas. La divergencia KL es una herramienta eficaz para comparar la distribución de una ventana de tiempo actual con una ventana de tiempo pasada, lo que permite detectar anomalías en el comportamiento de los datos.

Ejemplo

Tomemos el caso de supervisar el rendimiento de los servidores de una empresa. Las métricas, como el uso de la CPU o los tiempos de respuesta, se supervisan continuamente. Si la distribución de los tiempos de respuesta durante una hora determinada se desvía significativamente de la de las horas anteriores, esto puede indicar una anomalía (por ejemplo, un mal funcionamiento del servidor o un ataque). La divergencia KL se utiliza para comparar estas distribuciones y alertar al equipo técnico si se detecta una desviación anómala.

Ventaja

Este enfoque permite la detección temprana de anomalías, lo que reduce el tiempo de inactividad o las costosas averías.

En conclusión

La divergencia KL desempeña un papel central en el campo de la inteligencia artificial, especialmente en el aprendizaje automático y la teoría de la información. Al permitir medir la diferencia entre las distribuciones de probabilidad, es una herramienta importante para optimizar los modelos, detectar anomalías y evaluar la calidad de las predicciones. La divergencia KL proporciona una mejor comprensión de las diferencias entre los comportamientos esperados y observados, al tiempo que ofrece soluciones para refinar los modelos.

Como función de pérdida o herramienta de evaluación, su aplicación sigue demostrando su importancia en la búsqueda de una IA mejor y más precisa. ¡Por lo tanto, comprender y controlar la divergencia del KL es extremadamente importante para desarrollar modelos y algoritmos más sólidos capaces de generalizar mejor los comportamientos complejos!

Preguntas frecuentes

Es una medida que cuantifica la diferencia entre dos distribuciones de probabilidad, evaluando cuánto difiere una distribución estimada de una distribución de referencia o real.
Una divergencia KL cercana a cero indica que las distribuciones son similares. Un valor elevado significa una diferencia significativa entre ellas. No es simétrica, por lo que el orden de las distribuciones comparadas importa.
Porque se basa en una distribución de referencia específica. Esta asimetría implica que medir la divergencia de A hacia B no es lo mismo que de B hacia A, lo que afecta la evaluación de la información perdida durante la aproximación.
Sirve como función de pérdida para minimizar la diferencia entre las distribuciones predicha y real. En los VAE, regulariza el modelo para que genere datos realistas. En los GANs, ayuda a alinear la distribución de los datos generados con la de los datos reales.
Se utiliza para detectar anomalías comparando las distribuciones actuales con las distribuciones normales. También ayuda a monitorear las desviaciones de datos y a optimizar los modelos probabilísticos para mejorar la precisión de las predicciones.