On Markov Policies For Decentralized POMDPs - Laboratoire d’Excellence Intelligences des Mondes Urbains Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2018

On Markov Policies For Decentralized POMDPs

Sur les politiques Markoviennes pour les Dec-POMDPs

Résumé

This paper formulates the optimal decentralized control problem for a class of mathematical models in which the system to be controlled is characterized by a finite-state discrete-time Markov process. The states of this internal process are not directly observable by the agents; rather, they have available a set of observable outputs that are only probabilistically related to the internal state of the system. The paper demonstrates that, if there are only a finite number of control intervals remaining, then the optimal payoff function of a Markov policy is a piecewise-linear, convex function of the current observation probabilities of the internal partially observable Markov process. In addition, algorithms for utilizing this property to calculate either the optimal or an error-bounded Markov policy and payoff function for any finite horizon is outlined.
Cet article formule le problème du contrôle optimal décentralisé pour une classe de modèles mathématiques dans laquelle le système à contrôler est caractérisé par un processus de Markov à temps discret et à états finis. Les états de ce processus ne sont pas directement observables par les agents; ces derniers ont à leur disposition un ensemble d’observations lié de manière probabiliste à l’état du système. L’article démontre que, s’il ne reste qu’un nombre fini de pas de décision, la mesure de performance optimale d’une politique Markovienne est une fonction convexe, linéaire par morceaux, des probabilités d’observation courantes. En outre, sont décrits les algorithmes approchés d’exploitation de cette propriété pour le calcul de politiques Markoviennes et la mesure de performance associée pour tout horizon fini
Fichier principal
Vignette du fichier
RR-9202.pdf (531.91 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01860060 , version 1 (22-08-2018)

Identifiants

  • HAL Id : hal-01860060 , version 1

Citer

Jilles Dibangoye. On Markov Policies For Decentralized POMDPs. [Research Report] RR-9202, INRIA Grenoble - Rhone-Alpes - CHROMA Team; CITI - CITI Centre of Innovation in Telecommunications and Integration of services; INSA Lyon. 2018. ⟨hal-01860060⟩
182 Consultations
198 Téléchargements

Partager

Gmail Facebook X LinkedIn More