En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Data Preprocessing
Définition iA

Data Preprocessing

Le prétraitement des données (data preprocessing) est une étape essentielle avant l’entraînement d’un modèle d’intelligence artificielle. Elle consiste à transformer des données brutes, souvent imparfaites ou hétérogènes, en un format exploitable par des algorithmes d’apprentissage automatique. Sans cette étape, même les modèles les plus avancés risquent d’apprendre sur du bruit, des biais ou des valeurs incohérentes.

Techniques courantes

  • Nettoyage des données : suppression des doublons, correction des incohérences.
  • Gestion des valeurs manquantes : suppression des lignes, imputation par moyenne/médiane ou modèles prédictifs.
  • Normalisation et standardisation : mise à l’échelle des variables pour éviter qu’une caractéristique domine les autres.
  • Encodage : transformation des variables catégorielles (one-hot encoding, label encoding).
  • Réduction de dimensionnalité : PCA, t-SNE, UMAP.

Exemples d’applications

  • En santé : normaliser des signaux biologiques avant leur analyse par un réseau de neurones.
  • En finance : gérer des données manquantes dans l’historique des transactions.
  • En vision par ordinateur : redimensionner et normaliser les images avant l’entraînement.

Le prétraitement des données peut être vu comme une phase de mise en état : il s’agit de transformer une matière brute, souvent chaotique, en un matériau exploitable par les algorithmes. Sans cette étape, même le meilleur modèle risque de donner des résultats incohérents.

Un enjeu majeur est la gestion des valeurs aberrantes (outliers). Selon le domaine, elles peuvent être corrigées, supprimées ou, au contraire, conservées car elles représentent des cas rares mais significatifs (par exemple en détection de fraudes).

En pratique, le prétraitement doit aussi être pensé en fonction du contexte applicatif. En santé, on va privilégier la fiabilité et la traçabilité des transformations. En e-commerce, la rapidité et l’automatisation sont prioritaires. Dans tous les cas, documenter chaque étape est essentiel pour garantir la reproductibilité et la confiance dans les modèles.

Référence

  • Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques.