Open Information Extraction: Approche Supervisée et Syntaxique pour le Français - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Supervised Syntactic Approach for French Open Information Extraction

Open Information Extraction: Approche Supervisée et Syntaxique pour le Français

Résumé

Most of Open Information Extraction approaches focus on English. Hence, we propose a supervised OpenIE for French, we also derive a training set and an evaluation benchmark for French OpenIE. We propose a new two-stage pipeline model for sequence labeling, that first identifies all the arguments of the relation and only then classifies them according to their most likely label. The experiments not only show that our proposed approach achieves the best results, but also that the current state-of-the-art approach is not cross-domain friendly and fails when facing out-of-domain data (their domain is different from the training-set’s domain).
L’ Open Information Extraction, est un paradigme d’extraction conçu pour gérer l’adaptation de domaine, la principale difficulté des approches traditionnelles pour l’extraction d’informations. Cependant, la plupart des approches se concentrent sur l’anglais. Ainsi, nous proposons une approche supervisée pour l’OpenIE pour le français, nous développons également un corpus d’entraînement et un référentiel d’évaluation. Nous proposons un nouveau modèle basé en deux étapes pour l’étiquetage de séquence, qui identifie d’abord tous les arguments de la relation avant de les étiqueter. Les expérimentations montrent non seulement que l’approche que nous proposons obtient les meilleurs résultats, mais aussi que l’état de l’art actuel n’est pas assez robuste pour s’adapter à un domaine différent du domaine du corpus d’entraînement.
Fichier principal
Vignette du fichier
1.pdf (449.27 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03265879 , version 1 (23-06-2021)

Licence

Paternité

Identifiants

  • HAL Id : hal-03265879 , version 1

Citer

Massinissa Atmani, Mathieu Lafourcade. Open Information Extraction: Approche Supervisée et Syntaxique pour le Français. TALN 2021 - 28e Conférence sur le Traitement Automatique des Langues Naturelles, Jul 2021, Lille, France. pp.50-63. ⟨hal-03265879⟩
213 Consultations
152 Téléchargements

Partager

Gmail Facebook X LinkedIn More