Apprentissage par renforcement exploitant la structure additive des MDP factorisés

Thomas Degris; Olivier Sigaud; Pierre-Henri Wuillemin

Communication Dans Un Congrès Année : 2007

Apprentissage par renforcement exploitant la structure additive des MDP factorisés

, (1) , (2)

1
2

Thomas Degris

Fonction : Auteur

Olivier Sigaud

Fonction : Auteur
PersonId : 14932
IdHAL : olivier-sigaud
ORCID : 0000-0002-8544-0229
IdRef : 072724714

Animatlab

Pierre-Henri Wuillemin

Fonction : Auteur
PersonId : 8633
IdHAL : pierre-henri-wuillemin
ORCID : 0000-0003-3691-4886
IdRef : 12747627X

DECISION

Résumé

SDYNA est un cadre algorithmique générique pour traiter des problèmes d’apprentissage par renforcement factorisés de grande taille dont la structure est inconnue selon une approche à base de modèles. L’approche consiste à construire incrémentalement les fonctions de transition et de récompense d’un FMDP tout en utilisant des techniques de planification propres aux FMDP pour déterminer une politique efficace. Des instanciations précédentes de SDYNA utilisaient Structured Value Iteration pour planifier, mais n’exploitaient pas la structure additive d’un FMDP . Dans cette contribution, nous présentons une nouvelle instanciation reposant sur la programmation linéaire, capable de traiter des problèmes de $10^{11}$ états dont la structure est inconnue en exploitant leur structure additive. De plus, nous proposons un nouvel algorithme d’apprentissage qui accélère la construction du modèle par SDYNA .

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01305984

Soumis le : vendredi 22 avril 2016-10:28:44

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-01305984 , version 1 (22-04-2016)

Identifiants

HAL Id : hal-01305984 , version 1

Citer

Thomas Degris, Olivier Sigaud, Pierre-Henri Wuillemin. Apprentissage par renforcement exploitant la structure additive des MDP factorisés. JFPDA 2007 - 2e Journées Francophones Planification, Décision, Apprentissage pour la conduite de système, Jul 2007, Grenoble, France. pp.49-60. ⟨hal-01305984⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

131 Consultations

0 Téléchargements

Apprentissage par renforcement exploitant la structure additive des MDP factorisés

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager