En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Semi-Supervised Learning
Définition iA

Semi-Supervised Learning

L’apprentissage semi-supervisé est une approche de l’intelligence artificielle qui exploite à la fois des données étiquetées et non étiquetées pour entraîner un modèle. L’objectif est de réduire la quantité de données annotées nécessaire, tout en améliorant les performances par rapport à un apprentissage non supervisé.

Contexte
Dans la plupart des projets d’IA, l’annotation manuelle des données représente un coût élevé. Or, il existe souvent de grandes quantités de données brutes non étiquetées (textes, images, vidéos). L’apprentissage semi-supervisé cherche à combiner le meilleur des deux mondes : utiliser un petit jeu annoté pour guider le modèle, et un grand volume non annoté pour enrichir son apprentissage.

Exemples concrets

  • Reconnaissance d’images : entraîner un modèle de vision en n’ayant annoté qu’un petit pourcentage des photos.
  • Traitement du langage naturel : améliorer un système de classification de documents grâce à un corpus étiqueté minimal et une grande base de textes non annotés.
  • Médical : exploiter quelques examens radiologiques annotés par des experts et un grand nombre non annotés.

Enjeux et limites

  • ✅ Réduit les coûts d’annotation.
  • Améliore la généralisation des modèles.
  • ❌ Nécessite des algorithmes sophistiqués pour bien tirer parti des données non étiquetées.
  • ❌ Peut introduire du bruit si les données brutes sont trop hétérogènes.

Une des forces majeures de l’apprentissage semi-supervisé réside dans sa capacité à exploiter la structure implicite des données. Les algorithmes supposent souvent que des points de données proches dans l’espace des caractéristiques partagent la même étiquette (hypothèse de continuité). Cela permet de propager l’information des échantillons étiquetés vers les non étiquetés, comme si l’IA complétait un puzzle à partir de quelques pièces révélées.

Cette approche est particulièrement pertinente dans les domaines où les données sensibles sont difficiles ou coûteuses à annoter. En médecine, par exemple, chaque image doit être validée par un spécialiste, ce qui limite la taille des datasets. Le semi-supervisé permet alors de maximiser la valeur de chaque annotation humaine, tout en tirant parti du vaste corpus de données brutes disponibles.

D’un point de vue technique, plusieurs méthodes existent : l’auto-entraînement (self-training), où le modèle utilise ses propres prédictions comme pseudo-étiquettes, ou encore les modèles génératifs, comme les autoencodeurs ou les GANs, qui apprennent la structure sous-jacente des données pour mieux exploiter l’information non supervisée.

Cependant, l’apprentissage semi-supervisé reste un équilibre fragile : si le modèle produit trop de pseudo-étiquettes incorrectes, celles-ci risquent d’amplifier les erreurs. Cela explique pourquoi il est souvent combiné avec des techniques de régularisation ou des contraintes de cohérence pour garantir la robustesse des résultats.

📚 Références

  • Zhu, X. (2005). Semi-Supervised Learning Literature Survey.
  • Chapelle, O., Schölkopf, B., Zien, A. (2010). Semi-Supervised Learning. MIT Press.