Data Leakage
La fuga de datos (data leakage) sucede cuando, de manera inadvertida, un modelo de IA utiliza información del conjunto de prueba o de datos futuros durante su entrenamiento. Esto provoca resultados de evaluación artificialmente altos que no reflejan la verdadera capacidad de generalización del modelo.
Ejemplos
- Usar variables directamente correlacionadas con el objetivo (ej. incluir el precio final para predecir… el precio final).
- Contaminación entre entrenamiento y prueba: registros repetidos en ambos conjuntos.
- En series temporales, emplear valores futuros para predecir el pasado.
Consecuencias
- Métricas infladas y engañosas.
- Fallo del modelo al pasar a producción.
- Riesgos de sesgo en la toma de decisiones empresariales.
Cómo prevenirlo
- Separar rigurosamente los conjuntos de entrenamiento, validación y prueba.
- Revisar las variables para evitar “fugas” de información.
- Implementar validación específica para datos temporales (time-based split).
La fuga de datos es un fenómeno que suele pasar desapercibido hasta que el modelo se enfrenta a la realidad. En pruebas internas parece brillar, pero al desplegarlo se vuelve ineficaz. Este contraste mina la credibilidad del equipo de ciencia de datos y puede generar riesgos serios si se trata de sectores sensibles como la medicina o las finanzas.
Una fuente frecuente de fugas proviene del tratamiento inadecuado de los datos. Si se calculan estadísticas globales (como la media o la desviación estándar) usando todo el dataset antes de dividirlo en entrenamiento y validación, ya existe contaminación. Lo mismo ocurre cuando registros duplicados aparecen en ambos conjuntos.
Más allá de la técnica, la prevención requiere una mirada crítica y contextual. Los expertos del dominio son clave para identificar variables “imposibles” que no estarían disponibles en el momento de la predicción. En definitiva, se trata de entrenar el modelo solo con la información que estaría accesible en la práctica, respetando la lógica temporal y causal.
Referencias
- Kaufman, S. et al. (2011). Leakage in Data Mining: Formulation, Detection, and Avoidance.