Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Résumé : L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de systèmes de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " on-policy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent a l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne de la politique optimale est proposé. Cet algorithme combiné, à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multi-couche) permet de gérer des systèmes à grande échelle
Complete list of metadatas

Cited literature [22 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00656496
Contributor : Amélie Cordier <>
Submitted on : Tuesday, January 17, 2012 - 12:30:45 PM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Wednesday, April 18, 2012 - 2:21:18 AM

File

rfia2012_submission_40.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00656496, version 1

Citation

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. RFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3. ⟨hal-00656496⟩

Share

Metrics

Record views

270

Files downloads

106