En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Reinforcement learning algorithm based on an out-of-model approach, where an agent learns an optimal policy by maximizing cumulative rewards without having prior knowledge of the environment.