Batch Policy Iteration Algorithms for Continuous Domains

Bilal Piot; Matthieu Geist; Olivier Pietquin

Communication Dans Un Congrès Année : 2016

Batch Policy Iteration Algorithms for Continuous Domains

(1) , (2, 3) ,

1
2
3

Bilal Piot

Fonction : Auteur

DeepMind [London]

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

CentraleSupélec

Georgia Tech Lorraine [Metz]

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

Résumé

This paper establishes the link between an adaptation of the policy iteration method for Markov decision processes with continuous state and action spaces and the policy gradient method when the differentiation of the mean value is directly done over the policy without parameterization. This approach allows deriving sound and practical batch Reinforcement Learning algorithms for continuous state and action spaces.

Domaines

Machine Learning [stat.ML]

Fichier principal

ewrl13-2016-submission_3.pdf (294.16 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Matthieu GEIST : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01629651

Soumis le : lundi 6 novembre 2017-16:09:09

Dernière modification le : jeudi 13 avril 2023-09:26:12

Dates et versions

hal-01629651 , version 1 (06-11-2017)

Identifiants

HAL Id : hal-01629651 , version 1

Citer

Bilal Piot, Matthieu Geist, Olivier Pietquin. Batch Policy Iteration Algorithms for Continuous Domains. European Workshop on Reinforcement Learning (EWRL), 2016, Barcelone, Spain. ⟨hal-01629651⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-FCOMTE CENTRALESUPELEC UMI-GTL UNIV-PARIS-SACLAY

68 Consultations

44 Téléchargements

Batch Policy Iteration Algorithms for Continuous Domains

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager