Loss Function
La fonction de perte est un élément central de l’apprentissage automatique. Elle mesure l’écart entre les prédictions du modèle et les valeurs réelles. Plus la valeur de perte est faible, plus le modèle est considéré comme performant. L’entraînement consiste à ajuster les paramètres du modèle afin de minimiser cette perte.
Contexte
Différents types de fonctions de perte existent, adaptées à des tâches variées :
- Erreur quadratique moyenne (MSE) pour la régression.
- Entropie croisée pour la classification.
- Hinge loss pour les SVM.
Elles guident les algorithmes d’optimisation (comme la descente de gradient) dans l’ajustement progressif des poids.
Exemples
- En vision par ordinateur, l’entropie croisée évalue si un réseau classe correctement une image.
- En traitement du langage naturel, la perplexité sert de fonction de perte pour les modèles de langage.
- En santé, une fonction de perte adaptée peut pénaliser plus fortement les faux négatifs (diagnostics manqués).
Avantages et limites
- ✅ Fournit un critère quantifiable pour guider l’apprentissage.
- ✅ Peut être adaptée selon les priorités métier.
- ❌ Un mauvais choix de fonction de perte peut conduire à un modèle inefficace.
La fonction de perte joue le rôle de baromètre du modèle : elle mesure en continu l’écart entre ce que le modèle prévoit et la réalité observée. Pendant l’entraînement, l’algorithme ajuste ses paramètres pour faire descendre ce baromètre autant que possible.
Il existe une grande variété de fonctions, chacune adaptée à une situation précise. L’erreur quadratique moyenne est intuitive pour la régression, mais sensible aux valeurs extrêmes. L’entropie croisée est devenue un standard en classification, tandis que des variantes comme la focal loss ou la dice loss sont privilégiées dans la vision médicale pour mieux gérer les déséquilibres de classes.
Le choix n’est pas anodin : il reflète les objectifs réels de l’application. Dans un diagnostic médical, rater un cas positif peut avoir des conséquences bien plus graves qu’un faux positif. Adapter la fonction de perte permet donc de rapprocher l’optimisation algorithmique des priorités humaines.
📚 Références
- Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning.