En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Overfitting
Définition iA

Overfitting

Le surapprentissage (ou overfitting) se produit lorsqu’un modèle d’intelligence artificielle apprend trop fidèlement les données d’entraînement, y compris leurs bruits et particularités, au point de perdre sa capacité à bien généraliser sur de nouvelles données.

Contexte
Ce phénomène survient souvent lorsque le modèle est trop complexe par rapport au volume ou à la qualité des données. Par exemple, un réseau neuronal profond avec des millions de paramètres peut mémoriser chaque détail du jeu d’entraînement, mais échouer sur des données inédites.

Exemples

  • Reconnaissance d’images : un modèle qui associe une marque d’eau spécifique à une catégorie au lieu de reconnaître l’objet réel.
  • Prédictions médicales : un algorithme qui se base sur des particularités propres à un hôpital au lieu de critères médicaux universels.
  • Finance : un modèle qui surinterprète des fluctuations passagères du marché.

Méthodes de prévention

Le surapprentissage est en quelque sorte le cauchemar silencieux des data scientists : un modèle qui semble parfait sur les données d’entraînement, mais qui se révèle inutile en production. Ce paradoxe s’explique par la tendance des modèles puissants à retenir des détails insignifiants plutôt qu’à extraire des règles générales.

Pour détecter ce problème, on observe souvent les courbes d’apprentissage. Une divergence entre la performance sur l’entraînement et celle sur la validation est un signe clair que le modèle “triche” en mémorisant. Outre les méthodes classiques (régularisation, dropout, augmentation de données), il existe des approches plus pragmatiques : limiter la profondeur d’un arbre de décision, réduire le nombre de couches d’un réseau, ou encore recourir à des ensembles de modèles (bagging, random forests).

En pratique, le surapprentissage n’est pas seulement une question technique. Il touche aussi aux enjeux de confiance : un modèle trop ajusté risque de donner de faux signaux de performance et d’induire en erreur chercheurs, cliniciens ou décideurs. Lutter contre lui, c’est donc aussi garantir la robustesse et la crédibilité des systèmes d’IA.

📚 Références

  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.
  • Géron, A. (2019). Apprentissage automatique avec Scikit-Learn, Keras et TensorFlow.