En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Policy
Définition iA

Policy

En apprentissage par renforcement (RL), une politique définit la stratégie qu’un agent adopte pour choisir ses actions en fonction de l’état actuel de l’environnement. Autrement dit, elle décrit comment l’agent se comporte pour maximiser les récompenses cumulées.

Contexte
La politique peut être :

  • Déterministe : à chaque état correspond une action unique.
  • Stochastique : à chaque état correspond une distribution de probabilités sur les actions.

L’étude des politiques est au cœur du RL, car elle formalise la manière dont l’agent IA apprend par essais-erreurs à améliorer ses décisions.

Exemples d’utilisation

  • Jeux vidéo : une IA qui apprend une politique pour battre un joueur humain.
  • Robotique : un robot qui choisit ses mouvements pour atteindre un objectif sans tomber.
  • Optimisation réseau : gestion de trafic Internet en fonction des états de congestion.

Avantages et limites

  • ✅ Encapsule tout le comportement de l’agent.
  • ✅ Permet de généraliser à des environnements complexes.
  • ❌ Difficile à optimiser dans des espaces d’états très vastes.
  • ❌ Peut nécessiter de nombreuses itérations pour converger.

Dans la pratique, les politiques ne sont presque jamais représentées comme de simples tables reliant états et actions, car cela serait impossible dans des environnements vastes ou continus. On utilise plutôt des fonctions paramétriques, souvent basées sur des réseaux de neurones profonds, afin d’approximer la politique. Ce cadre, appelé méthodes basées sur les politiques, consiste à ajuster directement les paramètres de la fonction pour maximiser la récompense attendue.

On distingue également les politiques fixes des politiques adaptatives. Les premières reposent sur des règles prédéfinies (ex. un système expert), tandis que les secondes évoluent au fil de l’apprentissage, s’adaptant progressivement aux caractéristiques de l’environnement.

Dans des domaines sensibles comme la santé ou la mobilité autonome, la transparence des politiques est importante. Une politique jugée optimale sur le plan quantitatif ne suffit pas si elle est incompréhensible pour les humains. D’où l’importance croissante de la recherche sur les politiques explicables, qui visent à concilier performance et confiance.

📚 Références

  • Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction.