Intégration de recommandations simples dans un MDP - GREYC mad Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Intégration de recommandations simples dans un MDP

Résumé

Nous nous intéressons aux recommandations d'un utilisateur à un système autonome. En pratique, on souhaite que l'utilisateur puisse spécifier au système des modifications ponctuelles du monde, ou ses propres préférences. Par exemple, dans le cas d'un G.P.S, l'utilisateur peut souhaiter lui indiquer des embouteillages, des travaux, ou une préférence sur les routes à prendre. Nous souhaitons avant tout que l'utilisateur puisse fournir de telles recommandations sans avoir besoin de représenter en détail ses connaissances sur le monde. Notre but est de permettre à l'agent d'estimer le modèle sous-jacent de l'utilisateur, à partir de recom-mandations simples de ce dernier, et d'en déduire une politique d'actions répondant à l'objectif du système tout en satisfaisant les recommandations. Ce problème peut être vu comme un problème d'apprentissage par renforcement inverse, où nous cher-chons à déterminer la fonction de récompense de l'utilisateur au travers d'informations qu'il nous donne [Abbeel & Ng, ICML 2004, Ramachandran & Amir, IJCAI 2007]. Il existe également de nombreuses études cherchant à simplifier le transfert d'informations utilisateur-agent, en particulier à partir de démonstrations sous-optimales [Brys et al., IJCAI 2015] et de renforcements locaux [Knox & Stone, Artif. Intell. 2015]. Plus proches de nos travaux, on trouve dans la littérature récente de nombreuses approches pour prendre des décisions à partir d'informations partielles sur la fonction de récompense de l'utilisateur [Regan & Boutilier, UAI 2009, Fürnkranz et al., Machine Learning 2012]. Les premiers de ces travaux nécessitent que l'utilisateur aient une idée assez précise d'une politique d'actions, et les seconds demandent un compromis entre la qualité de la politique calculée par l'agent et la quantité d'intéractions utilisateur-agent. Notre approche se distingue par le fait que nous étudions des recommandations extrêmement simples en terme de quantité d'informations, au prix d'hypothèses plus fortes sur la similitude entre le modèle que l'agent a de la tâche, et le modèle (sous-jacent) de l'utilisateur.
Fichier principal
Vignette du fichier
Benavent.JFPDA.2016.pdf (112.56 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01356031 , version 1 (24-08-2016)

Identifiants

  • HAL Id : hal-01356031 , version 1

Citer

Florian Benavent, Bruno Zanuttini. Intégration de recommandations simples dans un MDP. 11èmes journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes (JFPDA 2016), Jul 2016, Grenoble, France. ⟨hal-01356031⟩
90 Consultations
71 Téléchargements

Partager

Gmail Facebook X LinkedIn More