En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Transformers
Définition iA

Transformers

Les Transformers sont une architecture de réseaux de neurones introduite par Vaswani et al. en 2017 (“Attention Is All You Need”). Contrairement aux RNN (réseaux récurrents) et LSTM, qui traitent les séquences de manière séquentielle, les Transformers exploitent un mécanisme d’attention permettant de traiter tous les éléments d’une séquence en parallèle.

Comment ça marche ?

  • Le cœur du Transformer repose sur l’attention multi-têtes (multi-head attention), qui calcule les relations entre chaque mot d’une phrase et les autres.
  • Les encodeurs transforment la séquence en une représentation contextuelle.
  • Les décodeurs génèrent une sortie, souvent utilisée en traduction ou génération de texte.

Avantages

  • Parallélisation → entraînement plus rapide que les RNN.
  • Longue portée contextuelle → meilleure gestion des dépendances à long terme.
  • Flexibilité → adaptable au texte, aux images, aux protéines (bio-informatique).

Applications

L’apport majeur des Transformers est d’avoir permis une scalabilité sans précédent. Grâce à la parallélisation, il est devenu possible d’entraîner des modèles sur d’énormes volumes de données, ouvrant la voie aux modèles de langage géants comme GPT ou BERT.

Un autre aspect clé réside dans la richesse contextuelle. Là où les RNN peinaient à mémoriser des dépendances longues, l’attention multi-têtes permet de capter des relations complexes entre des mots éloignés. Cela explique pourquoi les Transformers excellent non seulement en traduction, mais aussi en résumé automatique ou en réponse à des questions.

Mais cette puissance a un coût : l’entraînement de Transformers demande une énorme puissance de calcul et une quantité de données colossale. Cela soulève des enjeux environnementaux (consommation énergétique) et sociétaux (qui peut réellement entraîner ces modèles ?). Malgré cela, les Transformers restent aujourd’hui le socle de la plupart des avancées en intelligence artificielle.

Référence clé

  • Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.