Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Glosario
Imbalanced Dataset
Definición de IA

Imbalanced Dataset

Un conjunto de datos desbalanceado aparece cuando algunas clases tienen muchos más ejemplos que otras. Este desajuste puede sesgar a los modelos de aprendizaje automático hacia la clase mayoritaria, reduciendo su capacidad para detectar casos poco frecuentes.

Ejemplos típicos

  • Detección de fraudes: la gran mayoría de las transacciones son normales.
  • Diagnóstico médico: enfermedades poco comunes con muy pocos registros.
  • Reconocimiento de anomalías: en IoT, solo una fracción mínima de lecturas corresponde a fallos.

Problemas asociados

  • Métricas engañosas: un modelo puede tener 99 % de exactitud y no detectar ni un solo fraude.
  • Predicciones sesgadas: favorece siempre la clase dominante.
  • Impacto social: en aplicaciones críticas puede derivar en injusticias o decisiones peligrosas.

Soluciones habituales

  • Oversampling y undersampling: equilibrar el número de ejemplos.
  • Generación de datos sintéticos: técnicas como SMOTE.
  • Entrenamiento sensible al coste: dar más penalización a los errores sobre clases minoritarias.
  • Uso de métricas alternativas: F1-score, recall, curvas ROC/PR.

Relevancia actual
El tratamiento de datasets desbalanceados es clave para construir modelos confiables y responsables. En contextos como salud, justicia o banca, ignorar las clases minoritarias puede tener consecuencias graves.

El desbalanceo no solo altera las métricas, también compromete la utilidad real del modelo. En banca, un sistema de scoring que ignora a los morosos raros puede generar pérdidas millonarias. En medicina, no detectar un solo caso positivo de una enfermedad poco común puede ser fatal para un paciente.


Además del oversampling o undersampling, existen técnicas modernas como la ponderación de clases, que ajusta la función de pérdida para dar más importancia a los errores en la clase minoritaria. Otra estrategia es el uso de ensembles (Random Forest, XGBoost) que, por su naturaleza, manejan mejor los desequilibrios al combinar múltiples árboles o modelos.


Los datasets desbalanceados también tienen implicaciones sociales. Si un modelo de contratación descarta sistemáticamente a perfiles poco representados, perpetúa desigualdades laborales. En justicia o sanidad, el riesgo de decisiones injustas o peligrosas se multiplica si no se corrige este sesgo estructural.


Hoy en día se exploran métodos basados en aprendizaje auto-supervisado y en ajustes dinámicos durante el entrenamiento, que permiten a los modelos adaptarse mejor a datos extremadamente raros sin necesidad de recopilar miles de ejemplos adicionales.

📚 Referencias

  • Chawla, N. V. et al. (2002). SMOTE. JAIR.
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning.