Cross Entropy

L’entropie croisée est une fonction de perte utilisée principalement dans les tâches de classification supervisée. Elle mesure l’écart entre deux distributions de probabilité :

la distribution réelle (souvent représentée par des labels encodés en one-hot),
la distribution prédite par le modèle.

‍

Intuition

Si le modèle attribue une probabilité élevée à la bonne classe, l’entropie croisée est faible.
Si le modèle se trompe ou hésite (proba faible sur la bonne classe), la perte augmente fortement.

‍

Exemple
Supposons un problème de classification de chiffres (0–9). Si l’image représente un "3" et que le modèle prédit :

Classe 3 → 0,9 de probabilité (correct) → perte faible.
Classe 3 → 0,1 de probabilité (incorrect) → perte élevée.

‍

Applications

Réseaux de neurones profonds pour la vision par ordinateur.
NLP (traduction automatique, classification de textes).
Systèmes de reconnaissance vocale.

‍

La cross-entropy peut se comprendre comme une mesure de distance entre deux distributions de probabilité : celle prédite par le modèle et la “réalité” représentée par les étiquettes. Plus ces deux distributions sont proches, plus la perte est faible.

‍

Un point intéressant est que cette fonction de coût pénalise fortement la confiance mal placée. Si un modèle attribue 99 % de probabilité à la mauvaise classe, la perte sera énorme. Cela incite les algorithmes à calibrer leurs prédictions de manière plus prudente.

‍

Dans la pratique, la cross-entropy est utilisée aussi bien en classification binaire (avec la sigmoïde) qu’en classification multi-classes (avec la softmax). Elle constitue l’un des piliers de l’apprentissage profond, au même titre que la descente de gradient ou la régularisation. Son principal défi reste la gestion des déséquilibres de classes, souvent traitée par du rééchantillonnage ou des pondérations adaptées.

‍

Référence

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.