Q-Learning

Le Q-Learning est un algorithme d’apprentissage par renforcement dit hors-modèle (model-free). Il permet à un agent d’apprendre une politique optimale en maximisant les récompenses cumulées, sans connaître les dynamiques exactes de l’environnement. L’agent apprend une fonction dite Q-valeur qui associe à chaque état et action une valeur estimée de la récompense future attendue.

‍

Contexte
Introduit par Christopher Watkins en 1989, Q-Learning a marqué un tournant dans l’IA en rendant possible l’apprentissage dans des environnements complexes et inconnus. C’est l’un des algorithmes de base de l’apprentissage par renforcement, utilisé dans de nombreuses extensions (Deep Q-Networks, ou DQN).

‍

Applications

Jeux : AlphaGo et d’autres IA combinent Q-Learning avec des réseaux de neurones pour surpasser les humains.
Robotique : navigation dans un environnement inconnu, évitement d’obstacles.
Finance : prise de décision séquentielle pour la gestion de portefeuilles.
Systèmes autonomes : optimisation de trafic ou gestion d’énergie.

‍

Avantages et limites

✅ N’a pas besoin d’un modèle préalable de l’environnement.
✅ Converge vers une politique optimale si suffisamment d’exploration.
❌ Peu efficace pour des environnements à grande échelle (explosion combinatoire).
❌ Peut être lent sans techniques d’approximation (réseaux neuronaux, exploration guidée).

‍

Le Q-Learning repose sur la mise à jour progressive d’une table de valeurs Q, qui associe à chaque couple (état, action) une estimation de la récompense future attendue. Après chaque interaction, l’agent ajuste sa valeur selon la récompense immédiate et la meilleure valeur anticipée de l’état suivant. Cette boucle de rétroaction permet d’aboutir, théoriquement, à la politique optimale si l’exploration est suffisante.

‍

L’intérêt principal du Q-Learning est qu’il est sans modèle : nul besoin de connaître à l’avance la dynamique de l’environnement. En revanche, sa limite apparaît dès que l’espace d’états et d’actions devient trop vaste. C’est pour pallier ce problème qu’ont émergé des variantes comme le Deep Q-Network (DQN), qui s’appuie sur les réseaux de neurones pour approximer les valeurs Q.

‍

Un enjeu central est la gestion de l’exploration. Une politique trop conservatrice empêche la découverte de nouvelles solutions, tandis qu’une exploration excessive ralentit l’apprentissage. Des stratégies comme l’ε-greedy ou le « softmax » probabiliste viennent réguler ce compromis délicat.

‍

📚 Références

Watkins, C. J. C. H. (1989). Learning from Delayed Rewards.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction.