Apprentissage de politique par minimisation de regret

Emmanuel Hadoux; Aurélie Beynier; Paul Weng

Communication Dans Un Congrès Année : 2013

Apprentissage de politique par minimisation de regret

(1) , (1) , (2)

1
2

Emmanuel Hadoux

Fonction : Auteur
PersonId : 6716
IdHAL : emmanuel-hadoux
IdRef : 192282492

Systèmes Multi-Agents

Aurélie Beynier

Fonction : Auteur
PersonId : 9272
IdHAL : aurelie-beynier
IdRef : 113330804

Systèmes Multi-Agents

Paul Weng

Fonction : Auteur
PersonId : 952563

DECISION

Résumé

Les processus décisionnels de Markov sont des modèles couramment utilisés pour représenter des problèmes de décisions séquentielles dans l'incertain. Cependant, les méthodes de résolution existantes font les hypothèses de stationnarité et de représentabilité de la fonction de transition par des probabilités. Nous proposons de retirer ces hypothèses en utilisant l'apprentissage par minimisation de regret dans le cadre multi‐états, mono et multi‐agents.

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01215990

Soumis le : jeudi 15 octobre 2015-13:54:19

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-01215990 , version 1 (15-10-2015)

Identifiants

HAL Id : hal-01215990 , version 1

Citer

Emmanuel Hadoux, Aurélie Beynier, Paul Weng. Apprentissage de politique par minimisation de regret. 14ème Congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision (ROADEF 2013), Feb 2013, Troyes, France. ⟨hal-01215990⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

181 Consultations

0 Téléchargements

Apprentissage de politique par minimisation de regret

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager