En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
One-Hot Encoding
Définition iA

One-Hot Encoding

L’encodage one-hot est une méthode de représentation des variables catégoriques sous forme de vecteurs binaires. Chaque catégorie unique d’une variable est transformée en un vecteur où une seule position prend la valeur 1 et toutes les autres sont à 0.

Contexte
Dans l’apprentissage automatique, les algorithmes manipulent des valeurs numériques. Or, les données catégoriques (ex. couleur = rouge, vert, bleu) doivent être converties en représentations numériques sans introduire d’ordre artificiel. L’encodage one-hot est la solution la plus utilisée, notamment dans le traitement du langage naturel et la vision par ordinateur.

Exemple
Variable “couleur” avec trois modalités : rouge, vert, bleu :

  • rouge → [1, 0, 0]
  • vert → [0, 1, 0]
  • bleu → [0, 0, 1]

Avantages et limites

  • ✅ Simple et intuitif.
  • ✅ Évite d’introduire un ordre erroné entre catégories.
  • ❌ Génère des vecteurs très longs pour des variables avec de nombreuses catégories (curse of dimensionality).
  • ❌ Peu efficace pour des modèles nécessitant des représentations compactes → souvent remplacé par des embeddings.

La codification one-hot constitue une étape classique du prétraitement des données catégorielles. Elle permet de représenter des modalités qualitatives de façon explicite, en évitant d’introduire une hiérarchie artificielle entre elles. Ainsi, une variable « couleur » devient un vecteur binaire clair, lisible par n’importe quel algorithme de classification ou de régression.

Toutefois, cette méthode simple souffre d’un inconvénient majeur : lorsque le nombre de catégories explose (par exemple des milliers de mots dans un vocabulaire), les vecteurs générés deviennent très longs et peu efficaces. C’est ce que l’on appelle le problème de la haute dimensionnalité.

Pour pallier cela, on recourt de plus en plus à des représentations denses comme les embeddings, qui condensent l’information tout en apprenant des proximités sémantiques entre catégories. Néanmoins, l’encodage one-hot conserve une place importante comme solution de référence et outil pédagogique incontournable.

📚 Références

  • Géron, A. (2019). Apprentissage automatique avec Scikit-Learn, Keras et TensorFlow.