En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Label Noise
Définition iA

Label Noise

Le problème du label noise

Dans l’apprentissage supervisé, on suppose que chaque donnée d’entraînement est correctement étiquetée. Pourtant, dans la réalité, les erreurs d’annotation sont fréquentes : fatigue humaine, ambiguïtés dans les images, ou recours à du crowdsourcing peu contrôlé. C’est ce qu’on appelle le label noise : des étiquettes erronées ou incohérentes.

Un exemple classique : un dataset de radiographies où certaines images de patients atteints de pneumonie sont mal classées comme “sains”. Ces erreurs, même si elles représentent 5 à 10 % du jeu de données, peuvent suffire à biaiser lourdement un modèle.

Conséquences

  • Baisse de performance : le modèle apprend à reproduire les erreurs.
  • Moins de généralisation : un modèle entraîné sur des données bruitées échoue face à de nouveaux exemples.
  • Décisions risquées : dans le médical ou la finance, un bruit de label peut mener à des conclusions erronées.

Stratégies de gestion

  • Nettoyage manuel : audits réguliers et validation par experts.
  • Algorithmes robustes : certaines variantes de réseaux neuronaux sont conçues pour tolérer des labels erronés.
  • Techniques semi-supervisées : combiner données labellisées et non labellisées pour détecter les incohérences.
  • Consensus multi-annotateurs : réduire les biais individuels en croisant plusieurs jugements humains.

Le bruit dans les étiquettes (label noise) ne se limite pas à un problème technique : c’est un enjeu organisationnel et méthodologique. Lorsque plusieurs annotateurs travaillent sur un même projet, l’absence de consignes claires ou la fatigue peut introduire des incohérences. En médecine, il arrive que l’évolution de la recherche rende certaines annotations obsolètes avec le temps, créant un bruit « temporel ».

On distingue également plusieurs formes de bruit :

  • Bruit aléatoire, lié à des erreurs ponctuelles.
  • Bruit systématique, où certaines classes sont confondues à cause de définitions ambiguës.
  • Bruit dépendant du contexte, fréquent dans le langage naturel, où le sens d’un mot varie selon la phrase.

Pour atténuer ces effets, les équipes combinent plusieurs stratégies : mise en place de protocoles d’annotation précis, utilisation de métriques de fiabilité inter-annotateurs (par exemple le kappa de Cohen), et recours à des modèles pré-entraînés pour détecter les anomalies. L’apprentissage actif (active learning) est également une solution prometteuse : le modèle signale les cas douteux, qui sont ensuite revus par des experts humains.

Ainsi, traiter le label noise ne consiste pas seulement à corriger des erreurs, mais à instaurer une culture de qualité des données, indispensable pour bâtir des systèmes fiables.

📚 Références

  • Frénay, B., & Verleysen, M. (2014). Classification in the presence of label noise: A survey. IEEE Neural Networks.