Prise de décision séquentielle en environnements incertains et non stationnaires

Emmanuel Hadoux; Aurélie Beynier; Paul Weng

Communication Dans Un Congrès Année : 2014

Prise de décision séquentielle en environnements incertains et non stationnaires

(1) , (1) , (2)

1
2

Emmanuel Hadoux

Fonction : Auteur
PersonId : 6716
IdHAL : emmanuel-hadoux
IdRef : 192282492

Systèmes Multi-Agents

Aurélie Beynier

Fonction : Auteur
PersonId : 9272
IdHAL : aurelie-beynier
IdRef : 113330804

Systèmes Multi-Agents

Paul Weng

Fonction : Auteur
PersonId : 952563

DECISION

Résumé

Le modèle des Processus Décisionnels de Markov (MDP) (Puterman94) permet de représenter et de résoudre des problèmes de décision séquentielle dans l'incertain.
Il suppose que l'environnement dans lequel les décisions sont prises est stationnaire.
Cependant, dans la pratique, cela peut ne pas être le cas.
Choi et al. ont proposé les Hidden-Mode MDP (HM-MDP) (Choi99) pour répondre à cette limitation.
Dans leur nouveau modèle, l'environnement est supposé évoluer selon une chaîne de Markov.

Chaque mode m d'un HM-MDP est un MDP défini par le tuple avec S l'ensemble des états, A l'ensemble des actions, T_m la fonction de transition entre les états et R_m la fonction de récompense. L'ensemble des états et l'ensemble des actions sont donc communs pour tous les modes. Un HM-MDP est alors défini par le tuple avec M l'ensemble des modes et C la fonction de transition entre les modes.
Nous proposons les Hidden-Semi-Markov-Mode MDP (HS3MDP) comme extension des HM-MDP pour les cas où l'environnement évolue selon une chaîne semi-markovienne.
Cette hypothèse est d'après nous plus réaliste car l'environnement n'évolue pas forcément à tous les pas de temps.

Un HS3MDP est défini par un tuple avec M et C définis comme précédemment et la fonction H(m, m', h) indiquant la probabilité, après avoir changé de mode de m à m', de rester h pas de temps dans le nouveau mode m'.

L'un des problèmes de la littérature est celui de la gestion d'ascenseurs.

Dans ce problème, l'ensemble des états représente toutes les combinaisons possibles de positions des ascenseurs ainsi que de l'état des boutons d'appel (à l'intérieur) et de sélection d'étages (à l'extérieur).

Les actions sont monter, descendre et ouvrir les portes.

La fonction de transition entre les états est dépendante des probabilités d'arrivée de personnes à chacun des étages. Cette probabilité est modifiée en fonction des différentes heures de pointes, des réunions inattendues, etc. représentées par les modes.

Les fonctions de récompenses engendrent un coup pour chaque utilisateur dont la requête n'est pas satisfaite.

C et H sont définies suivant les dynamiques du problème.

Les HM-MDP et les HS3MDP sont des sous-classes des MDP partiellement observables (Puterman94) et peuvent donc être résolus en utilisant les méthodes déjà existantes.
Cependant, ils souffrent de la même malédiction de la dimension que les POMDP.
Nous nous sommes donc intéressés à la résolution approchée des HS3MDP en utilisant POMCP (Silver10) l'un des meilleurs algorithmes de résolution approchée des POMDP à ce jour.
Nous l'avons adapté en exploitant la strucutre particulière des HS3MDP afin d'en améliorer les performances et nous avons expérimenté POMCP original et adapté sur différents problèmes non stationnaires de la littérature.

Mots clés

environnements non stationnaires décision séquentielle dans l'incertain

Domaines

Recherche opérationnelle [math.OC]

Martine Courbin-Coulaud : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00946306

Soumis le : jeudi 13 février 2014-16:02:07

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-00946306 , version 1 (13-02-2014)

Identifiants

HAL Id : hal-00946306 , version 1

Citer

Emmanuel Hadoux, Aurélie Beynier, Paul Weng. Prise de décision séquentielle en environnements incertains et non stationnaires. ROADEF - 15ème congrès annuel de la Société française de recherche opérationnelle et d'aide à la décision, Société française de recherche opérationnelle et d'aide à la décision, Feb 2014, Bordeaux, France. ⟨hal-00946306⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 ROADEF-2014 SORBONNE-UNIVERSITE SU-SCIENCES

353 Consultations

0 Téléchargements

Prise de décision séquentielle en environnements incertains et non stationnaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager