Imbalanced Dataset
Un conjunto de datos desbalanceado aparece cuando algunas clases tienen muchos más ejemplos que otras. Este desajuste puede sesgar a los modelos de aprendizaje automático hacia la clase mayoritaria, reduciendo su capacidad para detectar casos poco frecuentes.
Ejemplos típicos
- Detección de fraudes: la gran mayoría de las transacciones son normales.
- Diagnóstico médico: enfermedades poco comunes con muy pocos registros.
- Reconocimiento de anomalías: en IoT, solo una fracción mínima de lecturas corresponde a fallos.
Problemas asociados
- Métricas engañosas: un modelo puede tener 99 % de exactitud y no detectar ni un solo fraude.
- Predicciones sesgadas: favorece siempre la clase dominante.
- Impacto social: en aplicaciones críticas puede derivar en injusticias o decisiones peligrosas.
Soluciones habituales
- Oversampling y undersampling: equilibrar el número de ejemplos.
- Generación de datos sintéticos: técnicas como SMOTE.
- Entrenamiento sensible al coste: dar más penalización a los errores sobre clases minoritarias.
- Uso de métricas alternativas: F1-score, recall, curvas ROC/PR.
Relevancia actual
El tratamiento de datasets desbalanceados es clave para construir modelos confiables y responsables. En contextos como salud, justicia o banca, ignorar las clases minoritarias puede tener consecuencias graves.
El desbalanceo no solo altera las métricas, también compromete la utilidad real del modelo. En banca, un sistema de scoring que ignora a los morosos raros puede generar pérdidas millonarias. En medicina, no detectar un solo caso positivo de una enfermedad poco común puede ser fatal para un paciente.
Además del oversampling o undersampling, existen técnicas modernas como la ponderación de clases, que ajusta la función de pérdida para dar más importancia a los errores en la clase minoritaria. Otra estrategia es el uso de ensembles (Random Forest, XGBoost) que, por su naturaleza, manejan mejor los desequilibrios al combinar múltiples árboles o modelos.
Los datasets desbalanceados también tienen implicaciones sociales. Si un modelo de contratación descarta sistemáticamente a perfiles poco representados, perpetúa desigualdades laborales. En justicia o sanidad, el riesgo de decisiones injustas o peligrosas se multiplica si no se corrige este sesgo estructural.
Hoy en día se exploran métodos basados en aprendizaje auto-supervisado y en ajustes dinámicos durante el entrenamiento, que permiten a los modelos adaptarse mejor a datos extremadamente raros sin necesidad de recopilar miles de ejemplos adicionales.
📚 Referencias
- Chawla, N. V. et al. (2002). SMOTE. JAIR.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning.