Stochastic Gradient Descent

La descente de gradient stochastique (Stochastic Gradient Descent, SGD) est une variante de la descente de gradient classique. Au lieu de calculer le gradient de l’erreur sur l’ensemble complet des données (batch), les poids du modèle sont mis à jour après chaque exemple individuel (ou petit sous-ensemble de données).

‍

Contexte
Introduite dès les années 1950 dans le domaine de l’optimisation numérique, la méthode SGD a pris une place centrale dans l’apprentissage profond (deep learning), notamment parce qu’elle permet d’entraîner efficacement des modèles sur des ensembles de données massifs.

‍

👉‍ Découvrez notre offre de services, et préparez des ensembles de données (plus ou moins) massifs, pour vos IA !

‍

Avantages

✅ Vitesse : mises à jour rapides et fréquentes, entraînement plus dynamique.
✅ Mémoire réduite : pas besoin de charger l’ensemble des données en une seule fois.
✅ Exploration du paysage de perte : le caractère aléatoire aide à éviter certains minima locaux.

‍

Limites

❌ Variance élevée : les mises à jour bruitées peuvent rendre l’optimisation instable.
❌ Besoin d’hyperparamètres ajustés : notamment le taux d’apprentissage (learning rate).

‍

Applications
SGD est utilisé dans presque tous les contextes d’apprentissage supervisé et profond : réseaux neuronaux, régression logistique, SVM, etc.

‍

La version “classique” de la descente de gradient stochastique est rapide, mais peut manquer de stabilité. Pour pallier ce problème, des variantes ont été développées : la SGD avec momentum, qui cumule les gradients passés pour accélérer l’apprentissage, ou encore le gradient accéléré de Nesterov (NAG), qui anticipe les prochaines mises à jour. Ces techniques permettent de combiner l’efficacité de la stochasticité avec une meilleure robustesse.

‍

Sans la SGD, l’essor de l’apprentissage profond aurait été beaucoup plus lent. C’est grâce à cette méthode que l’on a pu entraîner des réseaux convolutifs (CNN) sur des bases massives comme ImageNet. Aujourd’hui encore, malgré l’arrivée d’optimiseurs adaptatifs comme Adam, de nombreux modèles de pointe continuent d’utiliser la SGD, notamment dans la vision par ordinateur et la reconnaissance vocale.

‍

En pratique, l’efficacité de la SGD dépend d’un réglage fin de l’hyperparamètre clé : le taux d’apprentissage. Un pas trop grand peut provoquer des oscillations, tandis qu’un pas trop petit ralentit l’entraînement. Les chercheurs adoptent souvent des schedulers (décroissance exponentielle, “cosine annealing”) et des techniques comme le warm-up pour obtenir des résultats plus stables.

‍

La descente de gradient stochastique est également utilisée dans d’autres disciplines nécessitant de résoudre de grands problèmes d’optimisation : économie quantitative, biologie computationnelle ou encore physique des matériaux. Sa popularité repose sur sa simplicité et son adaptabilité.

‍

📚 Références

Bottou, L. (2010). Large-Scale Machine Learning with Stochastic Gradient Descent.
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.