Upsampling
En apprentissage automatique, le suréchantillonnage est une méthode utilisée lorsque certaines classes d’un jeu de données sont beaucoup moins représentées que d’autres. Par exemple, dans un jeu de données médical, on pourrait avoir 95 % de cas « sains » contre seulement 5 % de cas « malades ». Sans correction, l’algorithme risque d’ignorer les cas rares.
Le suréchantillonnage consiste à augmenter artificiellement la présence des classes minoritaires, soit en dupliquant des exemples existants, soit en générant de nouvelles variantes (par ex. via SMOTE – Synthetic Minority Over-sampling Technique).
Points clés :
- Permet de réduire le biais vers les classes majoritaires.
- Améliore la sensibilité (recall) du modèle, utile en détection de fraude ou en diagnostic médical.
- Peut cependant introduire du surapprentissage si trop de copies artificielles sont ajoutées.
👉 C’est un outil essentiel dans la gestion des données déséquilibrées, mais il doit être combiné à d’autres approches (sous-échantillonnage, pondération des classes, augmentation de données).
L’upsampling illustre bien la tension entre quantité et diversité. Répliquer simplement les données existantes permet d’équilibrer rapidement un jeu de données, mais n’apporte aucune nouvelle information : le modèle risque de “mémoriser” ces exemples au lieu de généraliser. Les techniques plus avancées comme SMOTE ou ADASYN génèrent de nouvelles instances synthétiques en interpolant ou extrapolant les points minoritaires, ce qui enrichit l’espace de représentation.
Un autre point clé est le moment de l’upsampling dans le pipeline. Réaliser cette opération avant la division entraînement/validation/test peut introduire des fuites d’information (data leakage). Les bonnes pratiques recommandent d’appliquer l’upsampling uniquement sur l’ensemble d’entraînement, pour préserver l’évaluation impartiale du modèle.
En pratique, l’upsampling est souvent utilisé dans des domaines où le coût d’une erreur de type II (faux négatif) est critique : santé, cybersécurité, finance. Ignorer un cas de cancer ou une transaction frauduleuse peut avoir des conséquences bien plus graves qu’un faux positif.
Enfin, l’upsampling doit rarement être utilisé seul. Il est généralement combiné avec des approches hybrides : downsampling des classes majoritaires, pondération des erreurs dans la fonction de perte, ou encore architectures de modèles adaptées aux données rares.
Référence : Chawla, N. V. et al. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research.