En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Algorithme d'apprentissage par renforcement basé sur une approche hors modèle, où un agent apprend une politique optimale en maximisant les récompenses cumulées sans avoir de connaissance préalable de l’environnement.