Apprentissage de la structure des processus de décision markoviens factorisés pour l'apprentissage par renforcement

Thomas Degris 1 Olivier Sigaud 1 Pierre-Henri Wuillemin 2
1 Animatlab
LIP6 - Laboratoire d'Informatique de Paris 6
2 DECISION
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribution, nous proposons SDYNA , un cadre général pour traiter des problèmes d’apprentissage par renforcement (A/R) de grande taille par essais et erreur et sans connaissance a priori de leur structure. SDYNA intègre des algorithmes incrémentaux de planification tirés des FMDPs avec des techniques d’apprentissage supervisé qui construisent une représentation structurée du problème. Nous décrivons en particulier SPITI , une instance de SDYNA , qui utilise un algorithme d’induction incrémentale d’arbres de décision pour apprendre la structure d’un problème et une version incrémentale de l’algorithme Structured Value Iteration pour effectuer la planification. Nous montrons que SPITI construit une représentation factorisée d’un problème d’A/R et améliore la politique plus rapidement qu’un algorithme tabulaire en exploitant la propriété de généralisation des algorithmes d’induction d’arbres de décision.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01336934
Contributor : Lip6 Publications <>
Submitted on : Friday, June 24, 2016 - 11:16:11 AM
Last modification on : Thursday, March 21, 2019 - 1:07:29 PM

Identifiers

  • HAL Id : hal-01336934, version 1

Citation

Thomas Degris, Olivier Sigaud, Pierre-Henri Wuillemin. Apprentissage de la structure des processus de décision markoviens factorisés pour l'apprentissage par renforcement. JFPDA 2006 - 1ères Journées Francophones sur la Planification, Décision, Apprentissage pour la conduite de systèmes, May 2006, Toulouse, France. pp.89-96. ⟨hal-01336934⟩

Share

Metrics

Record views

84