En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

La calidad de los datos en la Inteligencia Artificial: un enfoque de teoría de la información

Escrito por
Nanobaly
Publicado el
2024-10-26
Tiempo de lectura
0
min

La expresión »Basura entra, basura sale» se cita con frecuencia en la Inteligencia Artificial (IA), pero pocos entienden sus fundamentos teóricos.

La carrera por el rendimiento en inteligencia artificial a menudo se centra en arquitectura modelo, el potencia de cálculo o las técnicas de optimización.


Sin embargo, se sigue subestimando un aspecto crucial : la calidad de los datos de formación. Imagine construir una casa sobre una base inestable: no importa lo sofisticada que sea la arquitectura, la estructura se verá comprometida.


Del mismo modo, un modelo de IA entrenado con datos ruidosos o mal etiquetados inevitablemente reproducirá estos defectos. Esta realidad no es solo empírica, sino que se deriva directamente de los principios fundamentales de teoría de la información. Comprender estos principios ayuda a comprender por qué invertir en la calidad de los datos suele ser más importante que invertir en la complejidad de los modelos.

Fundamentos teóricos

La entropía de Shannon: la medición de la información

Claude Shannon revolucionó nuestra comprensión de la información al ofrecer una medida cuantitativa. ELEntropía de Shannon está dado por

H = -cero p (x) log₂ (p (x))

Dónde:

  • H es la entropía (medida en bits)
  • p (x) Es la probabilidad de que ocurra un evento x
  • (). Representa la suma de todos los eventos posibles

Esta fórmula nos dice algo fundamental: la información está vinculada a la imprevisibilidad. Un evento determinado (p=1) no proporciona información nueva, mientras que un evento poco frecuente proporciona mucha información.

Aplicación a los datos de entrenamiento

En un conjunto de datos de entrenamiento, la información total se puede desglosar de la siguiente manera:

H_total = H_útil + H_ruido

Dónde:

  • H_util representa información relevante para nuestra tarea
  • H_ruido representa imperfecciones, errores y artefactos

Esta descomposición tiene una consecuencia crucial: un modelo de IA que no puede distinguir intrínsecamente la información útil del ruido, aprenderá ambas cosas.

Por lo tanto, corre el riesgo de reproducir el ruido en la salida del modelo.

El principio de mantenimiento de la información

El límite fundamental

Un teorema fundamental de la teoría de la información establece que un sistema no puede crear información; solo puede transformarla. Para un modelo de IA, esto significa:

Calidad de salida ≤ Calidad de entrada

Esta desigualdad es estricta: no hay arquitectura, tan sofisticado como es, no puede superar este límite.

Caso práctico: escalado de imágenes

Tomemos el ejemplo concreto del escalado de una foto, en el que queremos aumentar la resolución de una imagen:

Image upscale, une image upscale, dont la résolution est augmentée, et l'image d'origine pour comparer
(Puedes encontrar una lista de herramientas que se utilizan para mejorar el tamaño de una foto aquí)

La cadena de calidad

Para una imagen de alta resolución (HR) generada a partir de una imagen de baja resolución (LR):

psnr_output ≤ psnr_input - 10*log10 (factor de escalación²)

Dónde:

  • PSNR (Relación señal/ruido máxima) mide la calidad de la imagen
  • factor de escalamiento Es la relación entre las resoluciones (por ejemplo, 2 a doble)

Impacto de los datos de formación

Consideremos dos escenarios de entrenamiento:

1. Conjunto de datos de alta calidad

- Imágenes en alta definición: fotografías 4K sin comprimir

- PSNR promedio: 45 dB

- Resultado posible: ~ 35 dB después de escalar x2



2. Conjunto de datos mediocre

- Imágenes HR: fotos comprimidas en JPEG

- PSNR promedio: 30 dB

- Resultado máximo: ~ 20 dB después de escalar x2

La Diferencia de 15 dB en el resultado final está directamente vinculado a la calidad de los datos de entrenamiento.

La PSNR en dB es una medida logarítmica que compara la señal máxima posible con el ruido (el error).
Cuanto mayor sea el dB, mejor será la calidad:

La PSNR (relación señal/ruido pico) se define como:

PSNR = 10 * log10 (MÁX²/MSE)

Dónde:

  • MÁXIMO es el máximo valor de píxel posible (255 para 8 bits)
  • MSE Es el error cuadrático medio

Para aumentar la escala, cuando se aumenta la resolución en un factor n, el MSE tiende a aumentar, lo que reduce de manera efectiva la PSNR.
Por lo tanto, la calidad del resultado es muy sensible al nivel de ruido.

Orden de magnitud de PSNR en dB para imágenes

  • Una imagen JPEG de alta calidad: ~40-45 dB
  • Compresión JPEG promedio: ~30-35 dB
  • Una imagen muy comprimida: ~20-25 dB

Siendo el dB una escala logarítmica:

  • +3 dB = 2 veces mejor calidad
  • +10 dB = 10 veces mejor calidad
  • +20 dB = 100 veces mejor calidad

Así que cuando decimos «~35 dB después de escalar x2", significa que:

  1. La imagen resultante tiene buena calidad
  2. Las diferencias con la imagen «perfecta» son difíciles de ver
  3. Esto es típico de un buen algoritmo de escalado

El efecto cascada: el peligro de los datos generados por la IA

Cuando las imágenes generadas por IA se utilizan para entrenar otros modelos, la degradación sigue una progresión geométrica:

Generation_quality_n = Calidad_original * (1 - tau)

Dónde:

  • Bronceado Es la tasa de degradación por generación
  • N Es el número de generaciones

Esta fórmula explica por qué usar imágenes generadas de AI para entrenar a otros modelos conduce a una rápida degradación de calidad.

La importancia del etiquetado

La calidad de las etiquetas es tan crucial como el de los propios datos. Para un modelo supervisado:

Precisión máxima = mínima (calidad de datos, etiquetas de precisión)

Esta sencilla fórmula muestra que, incluso con datos perfectos, las etiquetas inexactas limitan estrictamente las posibles actuaciones.

Recomendaciones prácticas

1. Preparar el conjunto de datos

Más arriba, nuestra demostración simplista ilustra la importancia crucial de la calidad de los datos utilizados para la capacitación. Le invitamos a consulta este artículo para obtener más información sobre cómo preparar un conjunto de datos de calidad para sus modelos de inteligencia artificial.

No podemos dar más detalles en este artículo, pero el lector informado notará que la definición de «ruido» plantea cuestiones filosóficas. ¿Cómo se define el ruido?

2. Reflexión: la naturaleza subjetiva del ruido

La propia definición de «ruido» en los datos plantea profundas cuestiones filosóficas. Lo que se considera ruido para una aplicación puede ser información crítica para otra.

Tomemos una foto como ejemplo:

  • Para un modelo de reconocimiento facial, las variaciones de iluminación son «ruido»
  • Para un modelo de análisis de iluminación, estas mismas variaciones son la información principal

Esta subjetividad del ruido nos recuerda que la «calidad» de los datos está intrínsecamente vinculada a nuestro objetivo. Al igual que el gato de Schrödinger, el ruido existe en superposición: es a la vez información y perturbación, hasta que definamos nuestro contexto de observación.

Esta dualidad resalta la importancia de una definición clara y contextual de «calidad» en nuestros proyectos de IA, lo que cuestiona la idea de una calidad absoluta de los datos.

3. Métricas de calidad

Para cada tipo de datos, defina umbrales mínimos, por ejemplo:

Imágenes

PSNR > 40 dB, SSIM > 0,95

Etiquetas

Precisión > 98%

Coherencia

Pruebas cruzadas > 95%


El umbral de 40 dB no es arbitrario. En la práctica:

  • 40dB: diferencias prácticamente imperceptibles
  • 35-40 dB: muy buena calidad, diferencias visibles solo para expertos
  • 30-35 dB: calidad aceptable para uso general
  • <30 dB: Degradación visible

SSIM (índice de similitud estructural)

El SSIM es complementario al PSNR:

Threshols_SSIM = {«Excelente»: «>0.95", «>0.95", «Bueno»: «0.90-0.95", «Aceptable»: «0.85-0.90", «Problema»: «>0.95", «>0.95"}

El SSIM se acerca más a la percepción humana porque considera la estructura de la imagen.

Pruebas de consistencia

Las pruebas cruzadas > 95% implican:

  1. Validación cruzada Pliegue K
  2. Pruebas de consistencia interna
  3. Verificación de valores atípicos
  4. Análisis de distribución

Conclusión

La teoría de la información nos proporciona un marco riguroso que demuestra que la calidad de los datos no es una opción pero con un límite matemático estricto. Un modelo de IA, por sofisticado que sea, no puede superar la calidad de sus datos de entrenamiento.

Esta comprensión debe guiar nuestras inversiones: en lugar de buscar solo arquitecturas más complejas, debemos priorizar garantizar la calidad de nuestros datos de formación !

abastecimiento

Entropía de Shannon: 🔗 https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Ilustración: 🔗
https://replicate.com/philz1337x/clarity-upscaler

Fuentes académicas y técnicas

  1. Shannon, C. E. (1948). «Una teoría matemática de la comunicación». Revista técnica del sistema Bell.
  2. Wang, Z. y otros (2004). «Evaluación de la calidad de la imagen: de la visibilidad de los errores a la similitud estructural». Transacciones del IEEE sobre el procesamiento de imágenes
  3. Goodfellow, I., Bengio, Y. y Courville, A. (2016). «Aprendizaje profundo». Prensa del MIT.
  4. Zhang, K. y otros (2020). «Aprendizaje profundo para la superresolución de imágenes: una encuesta». Transacciones del IEEE sobre análisis de patrones e inteligencia artificial.
  5. Dodge, S. y Karam, L. (2016). «Comprender cómo la calidad de la imagen afecta a las redes neuronales profundas». Conferencia internacional sobre la calidad de la experiencia multimedia (QoMex).