En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Data Augmentation
Définition iA

Data Augmentation

La data augmentation est une technique qui consiste à générer de nouvelles données d’entraînement à partir d’un dataset existant en appliquant des transformations variées. L’objectif est d’augmenter artificiellement la taille du jeu de données, de diversifier les exemples et d’améliorer la robustesse du modèle sans collecter de nouvelles données coûteuses.

Contexte
Dans l’apprentissage profond, les modèles modernes (CNN, Transformers, etc.) nécessitent de grandes quantités de données pour éviter le surapprentissage (overfitting). Cependant, l’acquisition de données annotées est souvent coûteuse et longue. La data augmentation constitue une solution pratique pour enrichir les datasets et améliorer la généralisation.

Exemples de techniques courantes

Applications

  • Reconnaissance faciale : rendre les modèles plus robustes aux variations d’angle ou d’éclairage.
  • Santé : enrichir des bases d’images médicales limitées.
  • NLP : améliorer la diversité des phrases pour des chatbots.
  • Industrie automobile : renforcer la détection d’objets pour les voitures autonomes.

La data augmentation joue un rôle essentiel dans la robustesse face aux biais. Un dataset peut contenir des déséquilibres (par exemple trop de visages masculins, ou trop de phrases issues d’un seul dialecte). En multipliant artificiellement les exemples minoritaires, on améliore l’équilibre et on réduit le risque que le modèle reproduise ces biais.

Cette technique est également précieuse dans les contextes où la collecte de données est limitée, comme en médecine : obtenir des milliers d’IRM annotées est souvent irréaliste, mais générer des variantes (rotations, intensités, contrastes) permet d’entraîner malgré tout des modèles fiables.

On voit aussi émerger des approches avancées, comme la mixup (combiner deux images ou deux phrases pour en créer une nouvelle) ou le cutout (masquer une partie de l’image pour forcer le modèle à se concentrer sur d’autres indices). Ces méthodes vont au-delà des transformations simples et renforcent l’apprentissage de représentations plus générales.

Références

  • Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning. Journal of Big Data.