F1 Score

El F1-score es una métrica que combina precisión (precision) y exhaustividad (recall) en un único valor mediante la media armónica. Mientras que la precisión mide qué proporción de predicciones positivas son correctas, el recall mide cuántos de los casos positivos reales son identificados por el modelo.

‍

Contexto
En problemas con clases desbalanceadas, la exactitud global (accuracy) puede dar una visión falsa del rendimiento. Un modelo que siempre prediga la clase mayoritaria tendría una precisión aparente alta, pero no serviría para detectar la clase minoritaria. El F1-score se convierte en una medida clave en estos escenarios.

‍

Aplicaciones prácticas

Filtrado de spam: equilibrar la identificación de correos basura sin bloquear correos legítimos.
Detección de fraudes financieros: donde los casos positivos son escasos pero críticos.
Reconocimiento biométrico: evaluar sistemas de identificación que deben evitar tanto rechazos indebidos como accesos falsos.

‍

Ventajas y limitaciones

Aporta una visión equilibrada entre precisión y recall.
No considera los verdaderos negativos, lo que puede ser un inconveniente en ciertos contextos.
No siempre refleja las prioridades del dominio: en algunos casos, puede ser preferible priorizar el recall (detectar todos los positivos) sobre la precisión.

‍

El F1-score puede entenderse como una medida de equilibrio: obliga al modelo a ser bueno tanto detectando casos positivos como evitando falsas alarmas. Si una de las dos métricas es muy baja, el F1 descenderá rápidamente, mostrando la debilidad del sistema.

‍

En la práctica, existen extensiones como el Fβ-score, que permite ajustar la importancia relativa de precisión y recall. Así, un hospital podría dar más peso al recall (para no dejar pasar enfermedades), mientras que un sistema antispam podría priorizar la precisión (para no bloquear correos legítimos).

‍

En problemas multiclase, el F1 se calcula de distintas formas: el macro-F1 da la misma importancia a cada clase, mientras que el micro-F1 pondera según la frecuencia. Esta diferencia es crucial en datasets desequilibrados, donde unas clases son mucho más abundantes que otras.

‍

Referencias

Jurafsky & Martin, Speech and Language Processing, 3rd Edition (Draft, 2022).