Intégration de recommandations simples dans un MDP

Florian Benavent; Bruno Zanuttini

Communication Dans Un Congrès Année : 2016

Intégration de recommandations simples dans un MDP

(1) , (1)

Florian Benavent

Fonction : Auteur

Equipe MAD - Laboratoire GREYC - UMR6072

Bruno Zanuttini

Fonction : Auteur
PersonId : 952903

Equipe MAD - Laboratoire GREYC - UMR6072

Résumé

Nous nous intéressons aux recommandations d'un utilisateur à un système autonome. En pratique, on souhaite que l'utilisateur puisse spécifier au système des modifications ponctuelles du monde, ou ses propres préférences. Par exemple, dans le cas d'un G.P.S, l'utilisateur peut souhaiter lui indiquer des embouteillages, des travaux, ou une préférence sur les routes à prendre. Nous souhaitons avant tout que l'utilisateur puisse fournir de telles recommandations sans avoir besoin de représenter en détail ses connaissances sur le monde. Notre but est de permettre à l'agent d'estimer le modèle sous-jacent de l'utilisateur, à partir de recom-mandations simples de ce dernier, et d'en déduire une politique d'actions répondant à l'objectif du système tout en satisfaisant les recommandations. Ce problème peut être vu comme un problème d'apprentissage par renforcement inverse, où nous cher-chons à déterminer la fonction de récompense de l'utilisateur au travers d'informations qu'il nous donne [Abbeel & Ng, ICML 2004, Ramachandran & Amir, IJCAI 2007]. Il existe également de nombreuses études cherchant à simplifier le transfert d'informations utilisateur-agent, en particulier à partir de démonstrations sous-optimales [Brys et al., IJCAI 2015] et de renforcements locaux [Knox & Stone, Artif. Intell. 2015]. Plus proches de nos travaux, on trouve dans la littérature récente de nombreuses approches pour prendre des décisions à partir d'informations partielles sur la fonction de récompense de l'utilisateur [Regan & Boutilier, UAI 2009, Fürnkranz et al., Machine Learning 2012]. Les premiers de ces travaux nécessitent que l'utilisateur aient une idée assez précise d'une politique d'actions, et les seconds demandent un compromis entre la qualité de la politique calculée par l'agent et la quantité d'intéractions utilisateur-agent. Notre approche se distingue par le fait que nous étudions des recommandations extrêmement simples en terme de quantité d'informations, au prix d'hypothèses plus fortes sur la similitude entre le modèle que l'agent a de la tâche, et le modèle (sous-jacent) de l'utilisateur.

Domaines

Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Système multi-agents [cs.MA]

Fichier principal

Benavent.JFPDA.2016.pdf (112.56 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Mad Greyc : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01356031

Soumis le : mercredi 24 août 2016-16:14:00

Dernière modification le : mercredi 20 mars 2024-16:20:04

Archivage à long terme le : vendredi 25 novembre 2016-13:47:19

Dates et versions

hal-01356031 , version 1 (24-08-2016)

Identifiants

HAL Id : hal-01356031 , version 1

Citer

Florian Benavent, Bruno Zanuttini. Intégration de recommandations simples dans un MDP. 11èmes journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes (JFPDA 2016), Jul 2016, Grenoble, France. ⟨hal-01356031⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS GREYC GREYC-MAD COMUE-NORMANDIE ENSICAEN UNICAEN

90 Consultations

71 Téléchargements

Intégration de recommandations simples dans un MDP

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager