La calidad de los datos en la Inteligencia Artificial: un enfoque de teoría de la información


La expresión »Basura entra, basura sale» se cita con frecuencia en la Inteligencia Artificial (IA), pero pocos entienden sus fundamentos teóricos.
La carrera por el rendimiento en inteligencia artificial a menudo se centra en arquitectura modelo, el potencia de cálculo o las técnicas de optimización.
Sin embargo, se sigue subestimando un aspecto crucial : la calidad de los datos de formación. Imagine construir una casa sobre una base inestable: no importa lo sofisticada que sea la arquitectura, la estructura se verá comprometida.
Del mismo modo, un modelo de IA entrenado con datos ruidosos o mal etiquetados inevitablemente reproducirá estos defectos. Esta realidad no es solo empírica, sino que se deriva directamente de los principios fundamentales de teoría de la información. Comprender estos principios ayuda a comprender por qué invertir en la calidad de los datos suele ser más importante que invertir en la complejidad de los modelos.
Fundamentos teóricos
La entropía de Shannon: la medición de la información
Claude Shannon revolucionó nuestra comprensión de la información al ofrecer una medida cuantitativa. ELEntropía de Shannon está dado por
H = -cero p (x) log₂ (p (x))
Dónde:
- H es la entropía (medida en bits)
- p (x) Es la probabilidad de que ocurra un evento x
- (). Representa la suma de todos los eventos posibles
Esta fórmula nos dice algo fundamental: la información está vinculada a la imprevisibilidad. Un evento determinado (p=1) no proporciona información nueva, mientras que un evento poco frecuente proporciona mucha información.
Aplicación a los datos de entrenamiento
En un conjunto de datos de entrenamiento, la información total se puede desglosar de la siguiente manera:
H_total = H_útil + H_ruido
Dónde:
- H_util representa información relevante para nuestra tarea
- H_ruido representa imperfecciones, errores y artefactos
Esta descomposición tiene una consecuencia crucial: un modelo de IA que no puede distinguir intrínsecamente la información útil del ruido, aprenderá ambas cosas.
Por lo tanto, corre el riesgo de reproducir el ruido en la salida del modelo.
El principio de mantenimiento de la información
El límite fundamental
Un teorema fundamental de la teoría de la información establece que un sistema no puede crear información; solo puede transformarla. Para un modelo de IA, esto significa:
Calidad de salida ≤ Calidad de entrada
Esta desigualdad es estricta: no hay arquitectura, tan sofisticado como es, no puede superar este límite.
Caso práctico: escalado de imágenes
Tomemos el ejemplo concreto del escalado de una foto, en el que queremos aumentar la resolución de una imagen:

La cadena de calidad
Para una imagen de alta resolución (HR) generada a partir de una imagen de baja resolución (LR):
psnr_output ≤ psnr_input - 10*log10 (factor de escalación²)
Dónde:
- PSNR (Relación señal/ruido máxima) mide la calidad de la imagen
- factor de escalamiento Es la relación entre las resoluciones (por ejemplo, 2 a doble)
Impacto de los datos de formación
Consideremos dos escenarios de entrenamiento:
1. Conjunto de datos de alta calidad
- Imágenes en alta definición: fotografías 4K sin comprimir
- PSNR promedio: 45 dB
- Resultado posible: ~ 35 dB después de escalar x2
2. Conjunto de datos mediocre
- Imágenes HR: fotos comprimidas en JPEG
- PSNR promedio: 30 dB
- Resultado máximo: ~ 20 dB después de escalar x2
La Diferencia de 15 dB en el resultado final está directamente vinculado a la calidad de los datos de entrenamiento.
La PSNR en dB es una medida logarítmica que compara la señal máxima posible con el ruido (el error).
Cuanto mayor sea el dB, mejor será la calidad:
La PSNR (relación señal/ruido pico) se define como:
PSNR = 10 * log10 (MÁX²/MSE)
Dónde:
- MÁXIMO es el máximo valor de píxel posible (255 para 8 bits)
- MSE Es el error cuadrático medio
Para aumentar la escala, cuando se aumenta la resolución en un factor n, el MSE tiende a aumentar, lo que reduce de manera efectiva la PSNR.
Por lo tanto, la calidad del resultado es muy sensible al nivel de ruido.
Orden de magnitud de PSNR en dB para imágenes
- Una imagen JPEG de alta calidad: ~40-45 dB
- Compresión JPEG promedio: ~30-35 dB
- Una imagen muy comprimida: ~20-25 dB
Siendo el dB una escala logarítmica:
- +3 dB = 2 veces mejor calidad
- +10 dB = 10 veces mejor calidad
- +20 dB = 100 veces mejor calidad
Así que cuando decimos «~35 dB después de escalar x2", significa que:
- La imagen resultante tiene buena calidad
- Las diferencias con la imagen «perfecta» son difíciles de ver
- Esto es típico de un buen algoritmo de escalado
El efecto cascada: el peligro de los datos generados por la IA
Cuando las imágenes generadas por IA se utilizan para entrenar otros modelos, la degradación sigue una progresión geométrica:
Generation_quality_n = Calidad_original * (1 - tau)
Dónde:
- Bronceado Es la tasa de degradación por generación
- N Es el número de generaciones
Esta fórmula explica por qué usar imágenes generadas de AI para entrenar a otros modelos conduce a una rápida degradación de calidad.
La importancia del etiquetado
La calidad de las etiquetas es tan crucial como el de los propios datos. Para un modelo supervisado:
Precisión máxima = mínima (calidad de datos, etiquetas de precisión)
Esta sencilla fórmula muestra que, incluso con datos perfectos, las etiquetas inexactas limitan estrictamente las posibles actuaciones.
Recomendaciones prácticas
1. Preparar el conjunto de datos
Más arriba, nuestra demostración simplista ilustra la importancia crucial de la calidad de los datos utilizados para la capacitación. Le invitamos a consulta este artículo para obtener más información sobre cómo preparar un conjunto de datos de calidad para sus modelos de inteligencia artificial.
No podemos dar más detalles en este artículo, pero el lector informado notará que la definición de «ruido» plantea cuestiones filosóficas. ¿Cómo se define el ruido?
2. Reflexión: la naturaleza subjetiva del ruido
La propia definición de «ruido» en los datos plantea profundas cuestiones filosóficas. Lo que se considera ruido para una aplicación puede ser información crítica para otra.
Tomemos una foto como ejemplo:
- Para un modelo de reconocimiento facial, las variaciones de iluminación son «ruido»
- Para un modelo de análisis de iluminación, estas mismas variaciones son la información principal
Esta subjetividad del ruido nos recuerda que la «calidad» de los datos está intrínsecamente vinculada a nuestro objetivo. Al igual que el gato de Schrödinger, el ruido existe en superposición: es a la vez información y perturbación, hasta que definamos nuestro contexto de observación.
Esta dualidad resalta la importancia de una definición clara y contextual de «calidad» en nuestros proyectos de IA, lo que cuestiona la idea de una calidad absoluta de los datos.
3. Métricas de calidad
Para cada tipo de datos, defina umbrales mínimos, por ejemplo:
Imágenes
PSNR > 40 dB, SSIM > 0,95
Etiquetas
Precisión > 98%
Coherencia
Pruebas cruzadas > 95%
El umbral de 40 dB no es arbitrario. En la práctica:
- 40dB: diferencias prácticamente imperceptibles
- 35-40 dB: muy buena calidad, diferencias visibles solo para expertos
- 30-35 dB: calidad aceptable para uso general
- <30 dB: Degradación visible
SSIM (índice de similitud estructural)
El SSIM es complementario al PSNR:
Threshols_SSIM = {«Excelente»: «>0.95", «>0.95", «Bueno»: «0.90-0.95", «Aceptable»: «0.85-0.90", «Problema»: «>0.95", «>0.95"}
El SSIM se acerca más a la percepción humana porque considera la estructura de la imagen.
Pruebas de consistencia
Las pruebas cruzadas > 95% implican:
- Validación cruzada Pliegue K
- Pruebas de consistencia interna
- Verificación de valores atípicos
- Análisis de distribución
Conclusión
La teoría de la información nos proporciona un marco riguroso que demuestra que la calidad de los datos no es una opción pero con un límite matemático estricto. Un modelo de IA, por sofisticado que sea, no puede superar la calidad de sus datos de entrenamiento.
Esta comprensión debe guiar nuestras inversiones: en lugar de buscar solo arquitecturas más complejas, debemos priorizar garantizar la calidad de nuestros datos de formación !
abastecimiento
Entropía de Shannon: 🔗 https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Ilustración: 🔗 https://replicate.com/philz1337x/clarity-upscaler
Fuentes académicas y técnicas
- Shannon, C. E. (1948). «Una teoría matemática de la comunicación». Revista técnica del sistema Bell.
- Wang, Z. y otros (2004). «Evaluación de la calidad de la imagen: de la visibilidad de los errores a la similitud estructural». Transacciones del IEEE sobre el procesamiento de imágenes
- Goodfellow, I., Bengio, Y. y Courville, A. (2016). «Aprendizaje profundo». Prensa del MIT.
- Zhang, K. y otros (2020). «Aprendizaje profundo para la superresolución de imágenes: una encuesta». Transacciones del IEEE sobre análisis de patrones e inteligencia artificial.
- Dodge, S. y Karam, L. (2016). «Comprender cómo la calidad de la imagen afecta a las redes neuronales profundas». Conferencia internacional sobre la calidad de la experiencia multimedia (QoMex).