En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Long Short-Term Memory (LSTM)
Définition iA

Long Short-Term Memory (LSTM)

Proposés en 1997 par Sepp Hochreiter et Jürgen Schmidhuber, les LSTM introduisent des cellules de mémoire et des mécanismes de portes (entrée, oubli, sortie) qui permettent de réguler le flux d’informations. Ce design a marqué une avancée décisive dans le traitement des séquences longues.

Applications pratiques

  • Traduction automatique : avant l’essor des Transformers, les LSTM étaient la référence en machine translation.
  • Reconnaissance vocale : Siri, Google Voice et d’autres assistants utilisaient les LSTM pour convertir la parole en texte.
  • Prévision de séries temporelles : en finance (prévision des cours boursiers), en climatologie (anticipation de la météo).
  • Analyse de sentiments : compréhension du ton ou de l’émotion dans des textes.

Limites et débats

Malgré leur efficacité, les LSTM ont progressivement été remplacés par les architectures Transformers (BERT, GPT, etc.), plus performantes et parallélisables. Toutefois, dans certains cas où les données sont limitées et séquentielles, les LSTM restent pertinents.

Les réseaux LSTM ont marqué une étape clé dans l’évolution de l’apprentissage profond. Leur véritable force réside dans leur capacité à gérer la mémoire de manière dynamique : décider quelles informations du passé doivent être retenues et lesquelles peuvent être oubliées. Cela les rend particulièrement adaptés aux données séquentielles où le contexte évolue constamment.

Un avantage souvent souligné est leur capacité à traiter des séquences de longueurs variables. Par exemple, en traduction automatique, une phrase courte ou très longue peut être traitée avec la même architecture, ce qui n’était pas le cas des RNN classiques.

Bien que les Transformers aient pris le dessus, les LSTM gardent une valeur pédagogique et pratique : ils sont souvent enseignés comme une introduction aux architectures séquentielles, et restent compétitifs dans des contextes où les ressources de calcul sont limitées. On peut ainsi les voir utilisés dans des applications embarquées ou pour des tâches spécialisées comme la reconnaissance de gestes en temps réel.

Références

  • Hochreiter, S. & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.