Batch Policy Iteration Algorithms for Continuous Domains - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Batch Policy Iteration Algorithms for Continuous Domains

Bilal Piot
  • Fonction : Auteur
Olivier Pietquin

Résumé

This paper establishes the link between an adaptation of the policy iteration method for Markov decision processes with continuous state and action spaces and the policy gradient method when the differentiation of the mean value is directly done over the policy without parameterization. This approach allows deriving sound and practical batch Reinforcement Learning algorithms for continuous state and action spaces.
Fichier principal
Vignette du fichier
ewrl13-2016-submission_3.pdf (294.16 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01629651 , version 1 (06-11-2017)

Identifiants

  • HAL Id : hal-01629651 , version 1

Citer

Bilal Piot, Matthieu Geist, Olivier Pietquin. Batch Policy Iteration Algorithms for Continuous Domains. European Workshop on Reinforcement Learning (EWRL), 2016, Barcelone, Spain. ⟨hal-01629651⟩
68 Consultations
44 Téléchargements

Partager

Gmail Facebook X LinkedIn More