Normalization

La normalisation est une technique de prétraitement des données qui consiste à mettre toutes les variables dans une même échelle numérique, généralement comprise entre 0 et 1 ou centrée autour de la moyenne. Cela permet d’éviter que certaines variables dominent le modèle simplement à cause de leur grandeur numérique.

‍

Contexte
Dans l’apprentissage automatique, la normalisation est essentielle pour les modèles sensibles aux échelles, comme les réseaux neuronaux ou les méthodes de distance (k-plus proches voisins, SVM). Elle diffère de la standardisation, qui ajuste les données pour obtenir une moyenne nulle et une variance unitaire.

‍

Exemples

Vision par ordinateur : les valeurs de pixels (0–255) sont ramenées entre 0 et 1.
Finance : normaliser prix, volumes et taux d’intérêt pour comparer équitablement leurs effets.
Santé : ajuster des mesures biométriques (poids, tension, cholestérol) pour les intégrer dans un même modèle.

‍

Avantages et limites

✅ Accélère la convergence lors de l’entraînement.
✅ Améliore la stabilité numérique.
❌ Peut être inutile pour certains modèles robustes (arbres de décision).
❌ Une mauvaise normalisation peut introduire des biais.

‍

La normalisation consiste à ramener toutes les variables à une même échelle numérique, afin d’éviter que certaines ne dominent l’apprentissage simplement en raison de leur amplitude. Par exemple, sans normalisation, une variable exprimée en milliers pourrait masquer l’effet d’une autre exprimée en dixièmes.

‍

Elle est particulièrement utile dans les modèles sensibles aux distances ou aux gradients, comme les réseaux de neurones, le k-plus-proches voisins ou les SVM. La normalisation diffère de la standardisation, qui recentre les données autour de zéro avec une variance unitaire.

‍

En pratique, on utilise souvent le min–max scaling pour ramener les valeurs entre 0 et 1, mais il existe aussi des variantes comme le robust scaling, qui atténue l’influence des valeurs extrêmes. À noter : pour les modèles d’arbres de décision, l’effet est quasi nul, car ces algorithmes se basent sur des seuils. Correctement appliquée, la normalisation permet une meilleure stabilité numérique et une convergence plus rapide des modèles.

‍

📚 Références

Géron, A. (2019). Apprentissage automatique avec Scikit-Learn, Keras et TensorFlow.