Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving.

Guillaume J. Laurent; Emmanuel Piat

Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle Année : 2006

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving.

(1) , (1)

Guillaume J. Laurent

Fonction : Auteur
PersonId : 854827

Laboratoire d'automatique de Besançon

Emmanuel Piat

Fonction : Auteur
PersonId : 855103

Laboratoire d'automatique de Besançon

Résumé

Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L'article décrit tout d'abord le cadre formel des PDMFOD puis le fonctionnement de l'algorithme, notamment le principe de parallélisation et l'attribution dynamique des récompenses. L'architecture est ensuite appliquée à deux problèmes de navigation, l'un dans un labyrinthe et l'autre dans un trafic routier (New York Driving). Les tests montrent que l'architecture permet effectivement d'apprendre une politique de décisions performante et générique malgré le nombre élevé de dimensions des espaces d'états des deux systèmes.

Mots clés

Apprentissage par renforcement Q-Learning W-Learning DBN-MDP PDM factorisé PDMFOD. PDMFOD

Domaines

Automatique / Robotique

Fichier principal

laurent2006ria.pdf (484.24 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Martine Azema : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00342330

Soumis le : jeudi 27 novembre 2008-11:08:13

Dernière modification le : jeudi 13 avril 2023-09:26:12

Archivage à long terme le : lundi 7 juin 2010-22:04:25

Dates et versions

hal-00342330 , version 1 (27-11-2008)

Identifiants

HAL Id : hal-00342330 , version 1

Citer

Guillaume J. Laurent, Emmanuel Piat. Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving.. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2006, 20, pp.275-309. ⟨hal-00342330⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-FCOMTE FEMTO-ST TDS-MACS

97 Consultations

797 Téléchargements

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager