Outlier
Qu’est-ce qu’un outlier ?
Un outlier (ou valeur aberrante) est une donnée qui diffère fortement du reste d’un jeu de données. C’est l’élément qui “sort de la norme”, comme une valeur de température de 60°C dans une série où toutes les autres oscillent entre 15 et 25°C.
Pourquoi est-ce important en intelligence artificielle ?
Parce que les algorithmes d’apprentissage automatique cherchent des régularités. Un outlier peut fausser la tendance générale, perturber une régression linéaire, ou pousser un réseau de neurones à mal “apprendre”.
Faut-il toujours les supprimer ?
Pas forcément. Certains outliers proviennent d’erreurs de mesure, mais d’autres traduisent un phénomène rare et précieux : une fraude bancaire, une anomalie médicale, un défaut dans une machine.
Comment les détecter ?
Avec des outils statistiques (écarts-types, boxplots) ou des techniques d’apprentissage non supervisé comme l’Isolation Forest ou les autoencodeurs dédiés à la détection d’anomalies.
Les valeurs atypiques posent un défi méthodologique, car elles peuvent à la fois déformer les statistiques classiques et révéler des informations cruciales. Par exemple, une moyenne est extrêmement sensible aux outliers, alors qu’une médiane ou un intervalle interquartile en souffre beaucoup moins. C’est pourquoi, en analyse exploratoire, les statisticiens privilégient souvent des mesures robustes avant de décider du traitement des valeurs extrêmes.
La détection des outliers est elle-même un champ de recherche. Les méthodes varient de l’approche statistique (z-score, boxplots) aux techniques plus avancées comme les forêts d’isolation (Isolation Forests), les machines à vecteurs de support à une classe (One-Class SVM) ou les réseaux neuronaux autoencodeurs entraînés à reconstruire uniquement les schémas dominants.
Un aspect souvent oublié est la dimension temporelle. Dans des séries chronologiques, un pic isolé peut signaler une erreur de capteur… mais aussi un événement exceptionnel à ne pas ignorer (blackout électrique, pic de pollution, attaque informatique). La frontière entre bruit et signal devient donc une décision d’expert.
Enfin, les valeurs atypiques soulèvent aussi des enjeux éthiques et opérationnels : supprimer trop vite un outlier peut masquer un cas rare mais légitime, tandis que les conserver sans discernement peut biaiser des modèles critiques. La bonne pratique repose sur un équilibre entre rigueur statistique et compréhension métier.
Sources utiles :