Exploiting Imprecise Information Sources in Sequential Decision Making Problems under Uncertainty

Nicolas Drougard

Résumé

Partially Observable Markov Decision Processes (POMDPs) define a useful formalism to express probabilistic sequential decision problems under uncertainty. When this model is used for a robotic mission, the system is defined as the features of the robot and its environment, needed to express the mission. The system state is not directly seen by the agent (the robot). Solving a POMDP consists thus in computing a strategy which, on average, achieves the mission best i.e. a function mapping the information known by the agent to an action. Some practical issues of the POMDP model are first highlighted in the robotic context: it concerns the modeling of the agent ignorance, the imprecision of the observation model and the complexity of solving real world problems. A counterpart of the POMDP model, called π-POMDP, simplifies uncertainty representation with a qualitative evaluation of event plausibilities. It comes from Qualitative Possibility Theory which provides the means to model imprecision and ignorance. After a formal presentation of the POMDP and π-POMDP models, an update of the possibilistic model is proposed. Next, the study of factored π-POMDPs allows to set up an algorithm named PPUDD which uses Algebraic Decision Diagrams to solve large structured planning problems. Strategies computed by PPUDD, which have been tested in the context of the competition IPPC 2014, can be more efficient than those produced by probabilistic solvers when the model is imprecise or for high dimensional problems. We show next that the π-Hidden Markov Processes (π-HMP), i.e. π-POMDPs without action, produces useful diagnosis in the context of Human-Machine interactions. Finally, a hybrid POMDP benefiting from the possibilistic and the probabilistic approach is built: the qualitative framework is only used to maintain the agent’s knowledge. This leads to a strategy which is pessimistic facing the lack of knowledge, and computable with a solver of fully observable Markov Decision Processes (MDPs). This thesis proposes some ways of using Qualitative Possibility Theory to improve computation time and uncertainty modeling in practice.

Les Processus Décisionnels de Markov Partiellement Observables (PDMPOs) permettent de modéliser facilement les problèmes probabilistes de décision séquentielle dans l’incertain. Lorsqu’il s’agit d’une mission robotique, les caractéristiques du robot et de son environnement nécessaires à la définition de la mission constituent le système. Son état n’est pas directement visible par l’agent (le robot). Résoudre un PDMPO revient donc à calculer une stratégie qui remplit la mission au mieux en moyenne, i.e. une fonction prescrivant les actions à exécuter selon l’information reçue par l’agent. Ce travail débute par la mise en évidence, dans le contexte robotique, de limites pratiques du modèle PDMPO: elles concernent l’ignorance de l’agent, l’imprécision du modèle d’observation ainsi que la complexité de résolution. Un homologue du modèle PDMPO appelé π-PDMPO, simplifie la représentation de l’incertitude: il vient de la Théorie des Possibilités Qualitatives qui définit la plausibilité des événements de manière qualitative, permettant la modélisation de l’imprécision et de l’ignorance. Une fois les modèles PDMPO et π-PDMPO présentés, une mise à jour du modèle possibiliste est proposée. Ensuite, l’étude des π-PDMPOs factorisés permet de mettre en place un algorithme appelé PPUDD utilisant des Arbres de Décision Algébriques afin de résoudre plus facilement les problèmes structurés. Les stratégies calculées par PPUDD, testées par ailleurs lors de la compétition IPPC 2014, peuvent être plus efficaces que celles des algorithmes probabilistes dans un contexte d’imprécision ou pour certains problèmes à grande dimension. Nous montrons ensuite que les Processus de Markov Cachés possibilistes (π-PMCs), i.e. les π-PDMPOs sans les actions, produisent de bons diagnostics dans le contexte de l’interaction Homme-Machine. Enfin, un PDMPO hybride tirant profit des avantages des modèles probabilistes et possibilistes est présenté: seule la connaissance de l’agent est maintenue sous forme qualitative. Ce modèle mène à une stratégie qui réagit de manière pessimiste au défaut de connaissance, et calculable avec des algorithmes de résolution des Processus Décisionnels de Markov entièrement observables (PDM). Cette thèse propose d’utiliser les possibilités qualitatives dans le but d’obtenir des améliorations en termes de temps de calcul et de modélisation de l’incertitude en pratique.

Exploiting Imprecise Information Sources in Sequential Decision Making Problems under Uncertainty

Tirer Profit de Sources d’Information Imprécises pour la Décision Séquentielle dans l’Incertain

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager