Skip to Main content Skip to Navigation

Processus Décisionnels de Markov : des récompenses ordinales au multicritère

Paul Weng 1
1 DECISION
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Le modèle des processus décisionnels de Markov (MDP) offre un cadre général pour la résolution de problèmes de décision séquentielle dans l'incertain. Son exploitation suppose une connaissance précise des valeurs des paramètres (probabilités et récompenses). Dans ce papier, les récompenses sont qualitatives ou ne sont connues que de manière imparfaite. Seul un ordre est supposé connu. Un MDP à récompenses ordinales (OMDP) peut être vu comme un MDP à récompenses numériques vectorielles dans lequel les fonctions de valeur se transforment en distributions de probabilité. Nous listons alors quelques critères d'optimalité provenant d'ordres sur les distributions de probabilité, notamment la dominance probabiliste à points de référence. Les OMDP exploitant cette dominance sont équivalents à des MDP multicritères avec une priorité définie sur les critères. Pour ces derniers, à l'horizon infini un nouvel algorithme de résolution est proposé quand la priorité sur les critères est un préordre complet.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01170347
Contributor : Lip6 Publications <>
Submitted on : Wednesday, July 1, 2015 - 2:14:40 PM
Last modification on : Friday, May 24, 2019 - 5:29:08 PM

Links full text

Identifiers

Citation

Paul Weng. Processus Décisionnels de Markov : des récompenses ordinales au multicritère. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2010, 24 (4), pp.505-524. ⟨10.3166/ria.24.505-524⟩. ⟨hal-01170347⟩

Share

Metrics

Record views

86