Exploration prudente : une approche par méthode de Monte-Carlo arborescente contrainte

Nicolas Galichet 1 Michèle Sebag 1, 2
2 TAO - Machine Learning and Optimisation
LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
Résumé : En robotique autonome, nous souhaitons permettre à l'agent d'explorer son environnement afin d'y effectuer les tâches désirées. Cette exploration autonome pose le problème de la sécurité de l'agent évoluant dans un environnement potentiellement dangereux. Cet article présente, dans un contexte d'apprentissage par renforcement, une implémentation d'exploration prudente par méthode de Monte-Carlo contrainte nommée Educated MCTS. Cette approche maintient à jour parallèlement à l'exploration un modèle permettant de se restreindre aux états proches de ceux connus et supposés sûrs. Les résultats expérimentaux montrent que Educated MCTS permet une amélioration significative du compromis exploration-sécurité
Type de document :
Communication dans un congrès
RFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3, 2012
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00656575
Contributeur : Amélie Cordier <>
Soumis le : mardi 17 janvier 2012 - 22:02:44
Dernière modification le : jeudi 5 avril 2018 - 12:30:12
Document(s) archivé(s) le : mercredi 18 avril 2012 - 02:30:46

Fichier

rfia2012_submission_153.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00656575, version 1

Collections

Citation

Nicolas Galichet, Michèle Sebag. Exploration prudente : une approche par méthode de Monte-Carlo arborescente contrainte. RFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3, 2012. 〈hal-00656575〉

Partager

Métriques

Consultations de la notice

565

Téléchargements de fichiers

793