Multiagent planning under uncertainty oriented interactions: Model and Algorithms
Planification multiagent sous incertitude orientée interactions : modèle et algorithmes
Résumé
This thesis deals with partially observable multiagent decision-making problems. First of all, a state of
the art describes the existing approaches (DEC-POMDP and its sub-models) : because of the exponential
complexity, they can not deal with real-world problems. Then, we introduce a new model, to avoid this
combinatorial complexity. Our model is made of two parts : the rst one describes an individual problem
(how the agent evolves, while ignoring the other agents) and the second one describes an interaction problem
(how the neighbors in
uence the agent). Such an approach comes from MultiAgent Systems, where
the group behavior is emerging from local interactions, but we avoid the weakness of these approaches
by adopting a rational reasoning over the current and future interactions, with an MDP.
Finally, we give several algorithms to compute a policy based on our model. We show how to deal with
current interactions only or to predict the futur interactions too, how to consider a given neighborhood
size while computing the policy, etc. The time complexity to compute a policy with these algorithms is
exponential in the neighborhood size, so we are able to compute good policies for real-size problems, by
choosing a small enough neighborhood.
Cette thèse adresse le problème de la planification multiagent, lorsque l'environnement est partiellement observable et que le résultat des actions est soumis à une incertitude. Un état de l'art est proposé autour des techniques existantes (le modèle DEC-POMDP et ses dérivés) et montre que ces approches, souffrant d'une explosion combinatoire, sont insuffisantes pour traiter des problèmes de taille "réelle". On présente alors un nouveau modèle, permettant de contourner le problème de l'explosion combinatoire. Ce modèle décrit d'une part un problème individuel (lorsque l'on ne prend en compte que l'existence d'un seul agent), et d'autre part l'influence des voisins sur cet agent. Ainsi, on reprend l'approche classique des SMA, visant à faire émerger un comportement de groupe à partir des interactions locales, mais on pallie aux faiblesses de ces approches en adoptant un raisonnement rationnel sur l'impact des interactions observées et à venir, grâce à une approche de type MDP.
On propose finalement un ensemble d'algorithmes pour le calcul d'une politique de comportement basée sur ce modèle. On décrit ainsi plusieurs approches, permettant de considérer les interactions immédiates uniquement, ou également celles à venir, de prendre en compte plus ou moins de voisins dans le raisonnement de l'agent, etc. La complexité de ces algorithmes est exponentielle en le nombre de voisins considérés simultanément : on peut donc calculer des politiques de bonne qualité pour des problèmes de taille réelle, dès l'instant où on se limite à un voisinage de taille raisonnable.
Loading...