Identification of Blackwell Policies for Deterministic MDPs - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Identification of Blackwell Policies for Deterministic MDPs

Victor Boone
  • Fonction : Auteur
  • PersonId : 1128963
Bruno Gaujal

Résumé

We consider the problem of the identification of Blackwell optimal policies for deterministic finite Markov Decision Processes (d-MDPs). Specifically, we are interested in algorithms that learn reward distributions by querying samples over time, that stop almost surely and return a Blackwell optimal policy with high probability. We provide a characterization of the class of MDPs over which such algorithms exist together with an algorithm identifying Blackwell optimal policies with arbitrarly high probability.
Fichier principal
Vignette du fichier
roadef.pdf (260.8 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03595301 , version 1 (03-03-2022)

Identifiants

  • HAL Id : hal-03595301 , version 1

Citer

Victor Boone, Bruno Gaujal. Identification of Blackwell Policies for Deterministic MDPs. 23ème congrès annuel de la Société Française de Recherche Opérationnelle et d'Aide à la Décision, INSA Lyon, Feb 2022, Villeurbanne - Lyon, France. ⟨hal-03595301⟩
42 Consultations
98 Téléchargements

Partager

Gmail Facebook X LinkedIn More