En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Vectorization
Définition iA

Vectorization

La vectorisation est le processus qui consiste à transformer des données brutes – qu’il s’agisse de texte, d’images, d’audio ou d’autres formats – en vecteurs numériques. Ces vecteurs sont des représentations mathématiques qui permettent aux algorithmes d’apprentissage automatique de manipuler, comparer et apprendre à partir de l’information. Sans cette étape, les modèles d’IA ne pourraient pas interpréter directement les données, car ils ne traitent que des nombres.

Contexte et origine

En intelligence artificielle, la vectorisation est apparue avec la nécessité de représenter de manière compacte et standardisée des données très diverses. Par exemple, dans le traitement automatique du langage naturel (NLP), chaque mot ou phrase doit être converti en une série de nombres capturant sa signification et son contexte. Des méthodes simples comme le one-hot encoding ont ouvert la voie, avant d’évoluer vers des approches plus sophistiquées, comme Word2Vec, GloVe et plus récemment les embeddings contextuels tels que BERT.

Applications pratiques

  • Traitement du langage : transformer des textes en vecteurs pour des tâches comme la traduction automatique, l’analyse de sentiments ou les moteurs de recherche.
  • Vision par ordinateur : convertir les pixels d’images en vecteurs pour permettre la classification d’objets, la détection faciale ou la segmentation.
  • Recommandations : vectoriser les préférences des utilisateurs pour calculer des similarités et proposer des contenus adaptés (films, musique, produits).
  • Indexation et recherche : dans les bases de données vectorielles, chaque document, image ou vidéo est stocké comme un vecteur, ce qui facilite la recherche par similarité (semantic search).

Enjeux et limites

La vectorisation n’est pas neutre : selon la méthode choisie, certaines informations sont perdues ou amplifiées. Par exemple, une image réduite en vecteur peut perdre des détails fins. De plus, la taille des vecteurs doit trouver un équilibre : trop petite, elle simplifie excessivement les données ; trop grande, elle augmente la complexité computationnelle. Enfin, les biais présents dans les données initiales peuvent être transmis aux vecteurs et donc aux modèles.

Références