Skip to Main content Skip to Navigation
Conference papers

Planification Monte Carlo orientée information

Vincent Thomas 1 Gérémy Hutin 2 Olivier Buffet 1
1 LARSEN - Lifelong Autonomy and interaction skills for Robots in a Sensing ENvironment
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : Dans cet article, nous nous intéressons à la résolution de problèmes de collecte active d'information exprimés sous la forme de rho-POMDP, une extension des Processus Décisionnels de Markov Partiellement Observables (POMDP) dont la récompense rho dépend de l'état de croyance. Des approches utilisées pour résoudre les POMDP ont déjà été étendues au cadre rho-POMDP lorsque la récompense rho est convexe ou lipschtizienne, mais ces approches ne permettent pas de résoudre toutes les instances de rho-POMDP. Afin de proposer un algorithme en-ligne efficace qui s'affranchit des contraintes sur rho, cet article se concentre sur les méthodes à base de recherche arborescente Monte Carlo et cherche à adapter POMCP à la résolution de rho-POMDP. Comme les récompenses dépendent de l'état de croyance, il est nécessaire de modifier POMCP (i) pour échantillonner plusieurs états lors des trajectoires suivies et (ii) pour éviter les biais dans l'estimation des valeurs. Des expériences ont été conduites pour étudier les propriétés de l'approche proposée.
Complete list of metadata

Cited literature [22 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02350573
Contributor : Vincent Thomas <>
Submitted on : Wednesday, November 6, 2019 - 9:19:13 AM
Last modification on : Friday, September 18, 2020 - 3:24:06 PM
Long-term archiving on: : Friday, February 7, 2020 - 6:00:13 PM

File

thomas_jfpda2019_version_final...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02350573, version 1

Citation

Vincent Thomas, Gérémy Hutin, Olivier Buffet. Planification Monte Carlo orientée information. JFPDA 2019 - Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2019, Toulouse, France. ⟨hal-02350573⟩

Share

Metrics

Record views

99

Files downloads

81