Backpropagation

Imagine un étudiant qui révise un examen : à chaque erreur, il corrige son raisonnement pour mieux réussir la prochaine fois. La rétropropagation (backpropagation) applique ce même principe aux réseaux de neurones artificiels.

‍

Comment ça marche ?

Le réseau calcule d’abord une prédiction (forward pass). Si le résultat est incorrect, la différence avec la valeur attendue (la fonction de perte) est mesurée. Ensuite, grâce au calcul différentiel (la dérivée), l’erreur est “retransmise” en sens inverse à travers le réseau. À chaque étape, les poids sont ajustés pour réduire l’écart.

‍

Importance historique

Introduit dans les années 1970, mais réellement popularisé dans les années 1980 par Rumelhart, Hinton et Williams, cet algorithme a rendu possible l’apprentissage profond tel qu’on le connaît aujourd’hui. Sans la rétropropagation, les réseaux de neurones à plusieurs couches seraient restés inutilisables en pratique.

‍

Limites

Sensible au problème du de la descente de gradient dans les réseaux très profonds.
Nécessite beaucoup de calculs, ce qui explique le recours massif aux GPU/TPU.

‍

La rétropropagation des gradients (ou backpropagation) est l’algorithme qui a véritablement permis le passage de la théorie à la pratique dans l’entraînement des réseaux de neurones. Son ingéniosité repose sur l’application systématique de la règle de dérivation en chaîne, qui permet de propager l’erreur depuis la sortie du réseau jusqu’aux couches les plus profondes.

‍

Ce mécanisme a donné naissance à l’ère du deep learning en rendant possible l’entraînement de réseaux à plusieurs couches, auparavant considérés comme trop complexes. Sans la rétropropagation, il n’y aurait pas eu de percée dans la vision par ordinateur, la reconnaissance vocale ou la traduction automatique.

‍

Cependant, la backprop présente aussi des limites : elle est gourmande en ressources, sensible à la qualité de l’initialisation des poids et à la profondeur du réseau. Pour pallier ces problèmes, la communauté a introduit des techniques comme les connexions résiduelles, la normalisation de lot (batch normalization) ou encore les algorithmes d’optimisation adaptatifs. Ces avancées permettent de stabiliser l’entraînement tout en conservant l’efficacité de la rétropropagation.

‍

Référence

Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning representations by back-propagating errors. Nature.