Gradient Descent

La descente de gradient est un algorithme d’optimisation fondamental en apprentissage automatique. Son objectif est de trouver les paramètres optimaux d’un modèle en minimisant une fonction de perte. Le principe repose sur le calcul du gradient (dérivée) de la fonction de perte par rapport aux paramètres, puis la mise à jour de ces derniers dans la direction opposée à ce gradient, afin de réduire progressivement l’erreur.

‍

Contexte
Proposée dès le XIXᵉ siècle en mathématiques et popularisée en IA dans les années 1980 avec l’essor de la rétropropagation pour les réseaux de neurones, la descente de gradient est devenue la pierre angulaire de l’entraînement des modèles modernes.

‍

Variantes

Batch Gradient Descent : mise à jour des paramètres après avoir traité tout l’ensemble de données.
Stochastic Gradient Descent (SGD) : mise à jour après chaque exemple, plus rapide mais plus bruitée.
Mini-Batch Gradient Descent : compromis qui utilise de petits lots de données.

‍

Applications

Réseaux de neurones profonds pour la reconnaissance d’images.
Modèles de traitement du langage naturel (Transformers).
Régression logistique et linéaire en statistique appliquée.

‍

Forces et limites

✅ Méthode simple et efficace.
✅ Fonctionne sur une large gamme de modèles.
❌ Sensible au choix du taux d’apprentissage.
❌ Peut se bloquer dans des minima locaux ou des plateaux.

‍

On peut voir la descente de gradient comme une méthode de recherche locale qui ajuste progressivement les paramètres d’un modèle pour réduire l’erreur. Sa simplicité en fait l’un des piliers de l’apprentissage automatique : il suffit de calculer la pente et de se déplacer dans la direction opposée.

‍

Au-delà des variantes classiques (batch, stochastique, mini-batch), des améliorations ont été proposées pour pallier les limites :

Momentum : ajoute une inertie pour éviter les oscillations.
Adam ou RMSProp : adaptent automatiquement le taux d’apprentissage pour chaque paramètre.
Learning rate schedules : font varier le taux d’apprentissage au cours de l’entraînement pour accélérer la convergence.

‍

La descente de gradient reste toutefois sensible au conditionnement des fonctions d’erreur. Dans les problèmes mal posés ou aux paysages complexes, elle peut converger lentement ou stagner. Néanmoins, sa robustesse et sa généralité expliquent pourquoi elle reste, quarante ans après le succès du backpropagation, l’algorithme d’optimisation le plus utilisé.

‍

📚 Références

Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning.