Apprentissage par renforcement exploitant la structure additive des MDP factorisés - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Apprentissage par renforcement exploitant la structure additive des MDP factorisés

Thomas Degris
  • Fonction : Auteur
Olivier Sigaud
Pierre-Henri Wuillemin

Résumé

SDYNA est un cadre algorithmique générique pour traiter des problèmes d’apprentissage par renforcement factorisés de grande taille dont la structure est inconnue selon une approche à base de modèles. L’approche consiste à construire incrémentalement les fonctions de transition et de récompense d’un FMDP tout en utilisant des techniques de planification propres aux FMDP pour déterminer une politique efficace. Des instanciations précédentes de SDYNA utilisaient Structured Value Iteration pour planifier, mais n’exploitaient pas la structure additive d’un FMDP . Dans cette contribution, nous présentons une nouvelle instanciation reposant sur la programmation linéaire, capable de traiter des problèmes de $10^{11}$ états dont la structure est inconnue en exploitant leur structure additive. De plus, nous proposons un nouvel algorithme d’apprentissage qui accélère la construction du modèle par SDYNA .
Fichier non déposé

Dates et versions

hal-01305984 , version 1 (22-04-2016)

Identifiants

  • HAL Id : hal-01305984 , version 1

Citer

Thomas Degris, Olivier Sigaud, Pierre-Henri Wuillemin. Apprentissage par renforcement exploitant la structure additive des MDP factorisés. JFPDA 2007 - 2e Journées Francophones Planification, Décision, Apprentissage pour la conduite de système, Jul 2007, Grenoble, France. pp.49-60. ⟨hal-01305984⟩
131 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More