CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes

Résumé

Machine reading comprehension is a task related to the Question-Answering task where questions are not generic in scope but are related to a particular document. Recently very large corpora (SQuAD, MS MARCO) containing triplets (document, question, answer) were made available to the scientific community to develop supervised methods based on deep neural networks with promising results. These methods need very large training corpus to be efficient, however such kind of data only exists for English at the moment. The purpose of this study is the development of such resources for other languages by proposing a method generating questions from a semantic frame analysis in a semi-automatic way. The collect of natural questions is reduced to a validation/test set. We applied this method on the French CALOR-Frame corpus in order to develop the CALOR-QUEST resource presented in this paper.
La compréhension automatique de texte est une tâche faisant partie de la famille des systèmes de Question/Réponse où les questions ne sont pas à portée générale mais sont liées à un document particulier. Récemment de très grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, réponse) ont été mis à la disposition de la communauté scientifique afin de développer des méthodes supervisées à base de réseaux de neurones profonds en obtenant des résultats prometteurs. Ces méthodes sont cependant très gourmandes en données d'apprentissage, données qui n'existent pour le moment que pour la langue anglaise. Le but de cette étude est de permettre le développement de telles ressources pour d'autres langue à moindre coût en proposant une méthode générant des questions à partir d'une analyse sémantique de manière semi-automatique. La collecte de questions naturelle est réduite à un ensemble de validation/test. L'application de cette méthode sur le corpus CALOR-Frame a permis de développer la ressource CALOR-QUEST présentée dans cet article.
Fichier principal
Vignette du fichier
TALN2019_CALOR_QUEST.pdf (220.26 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02377119 , version 1 (22-11-2019)

Identifiants

  • HAL Id : hal-02377119 , version 1

Citer

Frédéric Bechet, Cindy Aloui, Delphine Charlet, Geraldine Damnati, Johannes Heinecke, et al.. CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes. TALN 2019, Jul 2019, Toulouse, France. pp.185-194. ⟨hal-02377119⟩
154 Consultations
145 Téléchargements

Partager

Gmail Facebook X LinkedIn More