Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Résumé

L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de systèmes de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " on-policy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent a l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne de la politique optimale est proposé. Cet algorithme combiné, à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multi-couche) permet de gérer des systèmes à grande échelle
Fichier principal
Vignette du fichier
rfia2012_submission_40.pdf (385.67 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00656496 , version 1 (17-01-2012)

Identifiants

  • HAL Id : hal-00656496 , version 1

Citer

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. RFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3. ⟨hal-00656496⟩
105 Consultations
114 Téléchargements

Partager

Gmail Facebook X LinkedIn More