Skip to Main content Skip to Navigation
New interface
Conference papers

Apprentissage de politique par minimisation de regret

Emmanuel Hadoux 1 Aurélie Beynier 1 Paul Weng 2 
1 SMA - Systèmes Multi-Agents
LIP6 - Laboratoire d'Informatique de Paris 6
2 DECISION
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Les processus décisionnels de Markov sont des modèles couramment utilisés pour représenter des problèmes de décisions séquentielles dans l'incertain. Cependant, les méthodes de résolution existantes font les hypothèses de stationnarité et de représentabilité de la fonction de transition par des probabilités. Nous proposons de retirer ces hypothèses en utilisant l'apprentissage par minimisation de regret dans le cadre multi‐états, mono et multi‐agents.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-01215990
Contributor : Lip6 Publications Connect in order to contact the contributor
Submitted on : Thursday, October 15, 2015 - 1:54:19 PM
Last modification on : Sunday, June 26, 2022 - 9:59:15 AM

Identifiers

  • HAL Id : hal-01215990, version 1

Citation

Emmanuel Hadoux, Aurélie Beynier, Paul Weng. Apprentissage de politique par minimisation de regret. 14ème Congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision (ROADEF 2013), Feb 2013, Troyes, France. ⟨hal-01215990⟩

Share

Metrics

Record views

169