Renforcement en-ligne pour l’apprentissage conjoint de l’analyseur sémantique et du gestionnaire de dialogue d’un système d’interaction vocale

Matthieu Riou; Bassam Jabaian; Stéphane Huet; Fabrice Lefèvre

Communication Dans Un Congrès Année : 2019

Online reinforcement for simultaneous learning of semantic parsing and dialogue management in voice-interactive system

Renforcement en-ligne pour l’apprentissage conjoint de l’analyseur sémantique et du gestionnaire de dialogue d’un système d’interaction vocale

(1) , (1) , (1) , (1)

Matthieu Riou

Fonction : Auteur

Laboratoire Informatique d'Avignon

Bassam Jabaian

Fonction : Auteur
PersonId : 172824
IdHAL : bassam-jabaian
IdRef : 171425081

Laboratoire Informatique d'Avignon

Stéphane Huet

Fonction : Auteur
PersonId : 10005
IdHAL : shuet
ORCID : 0000-0003-1838-3807
IdRef : 110355245

Laboratoire Informatique d'Avignon

Fabrice Lefèvre

Fonction : Auteur
PersonId : 175133
IdHAL : fabricelefevre
ORCID : 0009-0003-4148-0741
IdRef : 089427092

Laboratoire Informatique d'Avignon

Résumé

Design of dialogue systems has witnessed many advances lately, yet acquiring a huge dataset remains a hindrance to their fast development for a new task or language. On-line learning is pursued in this paper as a convenient way to alleviate these difficulties. After the system modules are initiated, a single process handles data collection, annotation and use in training algorithms. A new challenge is to control the cost of the on-line learning borne by the user. Our work focuses on learning the semantic parsing and dialogue management modules. In this context, we propose several variants of simultaneous learning which are tested in user trials to confirm that only a few hundred training dialogues allow us to achieve good performance and overstep a rule-based handcrafted system. The analysis of these experiments gives us some insights, discussed in the paper, about the difficulty for the system’s trainers to establish a coherent and constant behavioural strategy to enable a fast and good-quality training phase.

Si la conception des systèmes de dialogue a connu de nombreuses avancées ces dernières années, l’acquisition de grands ensembles de données reste une difficulté pour leur développement rapide dans le cadre d’une nouvelle tâche. L’apprentissage en-ligne est considéré dans cet article comme un moyen pratique de surmonter cette limite. Une fois les modules du système initialisés, un unique processus gère la collection des données, leur annotation et leur utilisation dans les algorithmes d’apprentissage. Il faut alors pouvoir contrôler le coût induit pour l’utilisateur lors de cet apprentissage en-ligne. Notre travail s’intéresse à l’apprentissage simultané des modules d’analyse sémantique et de gestion du dialogue. Dans ce contexte, nous proposons différentes variantes d’apprentissage conjoint qui sont testées avec des tests utilisateurs afin de confirmer que quelques centaines de dialogues d’apprentissage seulement permettent d’atteindre de bonnes performances, améliorant celles d’un système expert à base de règles. L’analyse de ces expérimentations dans l’article fait aussi apparaître des difficultés rencontrées par les entraîneurs du système pour établir une stratégie cohérente et stable durant la phase d’apprentissage.

Mots clés

zero-shot learning reinforcement lear- ning On-line learning adversarial bandit spoken dialogue systems

bandit contre un adversaire systèmes de dialogue apprentissage sans données de référence ap- prentissage par renforcement Apprentissage en-ligne

Domaines

Modélisation et simulation Intelligence artificielle [cs.AI]

Fichier principal

rjcia2019-04.pdf (336.7 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Florent Breuil : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02160317

Soumis le : vendredi 21 juin 2019-08:53:45

Dernière modification le : lundi 14 décembre 2020-17:28:22

Dates et versions

hal-02160317 , version 1 (21-06-2019)

Identifiants

HAL Id : hal-02160317 , version 1

Citer

Matthieu Riou, Bassam Jabaian, Stéphane Huet, Fabrice Lefèvre. Renforcement en-ligne pour l’apprentissage conjoint de l’analyseur sémantique et du gestionnaire de dialogue d’un système d’interaction vocale. Rencontres des Jeunes Chercheurs en Intelligence Artificielle 2019, Jul 2019, Toulouse, France. pp.27-34. ⟨hal-02160317⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-AVIGNON TDS-MACS ILCB LIA RJCIA2019 ANR

137 Consultations

117 Téléchargements

Online reinforcement for simultaneous learning of semantic parsing and dialogue management in voice-interactive system

Renforcement en-ligne pour l’apprentissage conjoint de l’analyseur sémantique et du gestionnaire de dialogue d’un système d’interaction vocale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager