En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Reward
Définition iA

Reward

En apprentissage par renforcement, la récompense est le signal numérique fourni à un agent pour indiquer la qualité de son action dans un état donné. Elle guide l’agent dans son apprentissage en renforçant les comportements bénéfiques et en décourageant les actions contre-productives.

💡‍ Découvrez notre article sur les Agents en IA !

Contexte
Inspiré du conditionnement comportemental, le concept de récompense est central dans les algorithmes de type agent-environnement. Chaque action entraîne un retour (positif ou négatif), que l’agent utilise pour ajuster sa politique de décision.

Exemples

  • Jeux vidéo : un agent reçoit +1 lorsqu’il marque un point, –1 lorsqu’il en concède.
  • Robotique : un robot obtient une récompense quand il atteint une cible.
  • Publicité en ligne : maximiser le clic sur une annonce est traduit par une récompense positive.

Avantages et limites

  • ✅ Permet à l’agent d’apprendre de manière autonome sans supervision directe.
  • ✅ Flexible, peut s’adapter à divers environnements.
  • ❌ La conception d’une fonction de récompense pertinente est complexe.
  • ❌ Risque de comportements inattendus si la récompense est mal définie (reward hacking).

Dans l’apprentissage par renforcement, la récompense n’est pas simplement une mesure technique : c’est un langage entre l’humain et la machine. Elle traduit en un signal numérique ce que l’on attend d’un agent.

Un défi classique est le compromis entre récompenses rares et fréquentes. Les récompenses rares (par exemple, gagner une partie de Go) reflètent l’objectif final, mais rendent l’entraînement long et incertain. Les récompenses fréquentes (comme avancer d’un pas dans la bonne direction) facilitent l’apprentissage mais risquent d’encourager des comportements myopes.

La conception d’une fonction de récompense est donc autant un exercice d’ingénierie qu’une réflexion éthique : elle doit guider l’agent vers des comportements utiles, sûrs et alignés avec nos objectifs humains, en évitant les dérives comme le reward hacking.

📚 Références

  • Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction.
  • Silver, D. (UCL). Reinforcement Learning Lectures.