Skip to Main content Skip to Navigation

Apprentissage de politique par minimisation de regret

Emmanuel Hadoux 1 Aurélie Beynier 1 Paul Weng 2
1 SMA - Systèmes Multi-Agents
LIP6 - Laboratoire d'Informatique de Paris 6
2 DECISION
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Les processus décisionnels de Markov sont des modèles couramment utilisés pour représenter des problèmes de décisions séquentielles dans l'incertain. Cependant, les méthodes de résolution existantes font les hypothèses de stationnarité et de représentabilité de la fonction de transition par des probabilités. Nous proposons de retirer ces hypothèses en utilisant l'apprentissage par minimisation de regret dans le cadre multi‐états, mono et multi‐agents.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01215990
Contributor : Lip6 Publications <>
Submitted on : Thursday, October 15, 2015 - 1:54:19 PM
Last modification on : Thursday, March 21, 2019 - 12:59:15 PM

Identifiers

  • HAL Id : hal-01215990, version 1

Citation

Emmanuel Hadoux, Aurélie Beynier, Paul Weng. Apprentissage de politique par minimisation de regret. 14ème Congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision (ROADEF 2013), Feb 2013, Troyes, France. ⟨hal-01215990⟩

Share

Metrics

Record views

163