Binary Classification
La clasificación binaria es un problema de aprendizaje supervisado en el que un modelo asigna cada dato a una de dos categorías posibles.
Ejemplos comunes
- Correos electrónicos: spam vs no spam.
- Diagnóstico médico: enfermo vs sano.
- Finanzas: fraudulento vs no fraudulento.
- Opiniones en redes sociales: positivo vs negativo.
Retos principales
- Desbalance de clases: cuando una clase aparece con mucha más frecuencia que la otra.
- Selección de umbral: afecta la tasa de falsos positivos y falsos negativos.
- Ruido en los datos: errores de etiquetado que impactan el entrenamiento.
Aplicaciones
- Sistemas de seguridad: acceso permitido vs denegado.
- Industria: detección de defectos en productos.
- Marketing: cliente que compra vs no compra.
La clasificación binaria es uno de los problemas más estudiados porque refleja decisiones muy comunes en la vida real: aceptar o rechazar, aprobar o denegar, positivo o negativo. Su utilidad radica en que, aunque sea un caso sencillo, sirve como base para entender problemas más complejos de clasificación multiclase o multi-etiqueta.
Un desafío recurrente es el ajuste del umbral de decisión. Según dónde se sitúe, el mismo modelo puede comportarse de forma conservadora (pocos falsos positivos pero muchos falsos negativos) o agresiva (más detecciones pero también más falsas alarmas). La elección depende del contexto: en seguridad bancaria puede tolerarse alguna falsa alarma, pero en diagnóstico médico el costo de un falso negativo puede ser inaceptable.
Otra cuestión importante es la robustez frente a datos desbalanceados. Para enfrentarla, se utilizan técnicas como sobremuestreo de la clase minoritaria, submuestreo de la clase mayoritaria o el uso de algoritmos diseñados para ponderar el desequilibrio. Todo esto convierte la clasificación binaria en un campo donde la teoría estadística y la práctica empresarial se cruzan constantemente.
Referencia
- Gholami, A., et al. (2021). “A Survey of Binary Classification.” ACM Computing Surveys.