Variance
En apprentissage automatique, la variance désigne la sensibilité d’un modèle aux fluctuations des données d’entraînement. Un modèle à variance élevée change fortement ses prédictions lorsqu’il est exposé à de nouveaux échantillons de données.
Variance et biais : un équilibre clé
La variance ne peut pas être comprise sans son pendant : le biais. Un modèle à faible biais mais forte variance mémorise trop les données d’entraînement (surapprentissage), alors qu’un modèle à fort biais mais faible variance simplifie trop (sous-apprentissage). L’objectif de tout scientifique des données est de trouver un compromis biais-variance (bias-variance trade-off) qui maximise la performance en généralisation.
Exemple concret
- Faible variance : une régression linéaire simple, stable mais peu flexible.
- Forte variance : un réseau profond entraîné sans régularisation, capable de mémoriser chaque détail mais de mal s’adapter à de nouvelles données.
Enjeux pratiques
La variance est centrale pour :
- Évaluer la robustesse des modèles.
- Éviter l’overfitting, grâce à des techniques comme la régularisation (L1/L2), le dropout ou le cross-validation.
- Concevoir des modèles généralisables, capables de s’adapter à de nouveaux contextes (ex. reconnaissance d’objets dans des environnements variés).
En apprentissage automatique, la variance traduit la variabilité des prédictions du modèle lorsqu’il est exposé à de nouvelles données. Une variance élevée est le signe qu’un modèle s’est trop adapté aux exemples d’entraînement, au point de “mémoriser” des détails sans valeur prédictive. Ce phénomène se traduit par un surapprentissage (overfitting).
La variance ne peut être comprise qu’en lien avec le biais, dans le cadre du compromis biais–variance. Trop de variance engendre des modèles instables ; trop de biais limite leur capacité à apprendre. Les meilleures solutions se situent dans un équilibre entre ces deux extrêmes.
En pratique, il existe plusieurs moyens de limiter la variance : validation croisée, méthodes d’ensemble (bagging, forêts aléatoires), techniques de régularisation. Dans des contextes sensibles comme la médecine, l’aéronautique ou la conduite autonome, maîtriser la variance est essentiel pour garantir des systèmes robustes et fiables.
📚 Références
- Biais-variance en apprentissage automatique (Wikipedia)
- Geman, S., Bienenstock, E., & Doursat, R. (1992). Neural networks and the bias/variance dilemma. Neural Computation.