Apprentissage de politique par minimisation de regret - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Apprentissage de politique par minimisation de regret

Emmanuel Hadoux
Aurélie Beynier
Paul Weng
  • Fonction : Auteur
  • PersonId : 952563

Résumé

Les processus décisionnels de Markov sont des modèles couramment utilisés pour représenter des problèmes de décisions séquentielles dans l'incertain. Cependant, les méthodes de résolution existantes font les hypothèses de stationnarité et de représentabilité de la fonction de transition par des probabilités. Nous proposons de retirer ces hypothèses en utilisant l'apprentissage par minimisation de regret dans le cadre multi‐états, mono et multi‐agents.
Fichier non déposé

Dates et versions

hal-01215990 , version 1 (15-10-2015)

Identifiants

  • HAL Id : hal-01215990 , version 1

Citer

Emmanuel Hadoux, Aurélie Beynier, Paul Weng. Apprentissage de politique par minimisation de regret. 14ème Congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision (ROADEF 2013), Feb 2013, Troyes, France. ⟨hal-01215990⟩
181 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More