Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2013

A graph-based information extraction method for template filling

Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires

Résumé

In event-based Information Extraction systems, a major task is the filling from a text of a template gathering information related to a particular event. Such template filling may be a hard task when the information is scattered throughout the text and mixed with similar pieces of information relative to different events. We propose in this paper a two-step approach for template filling: first, an event-based segmentation is performed to select the parts of the text related to the target event; then, a graph-based method is applied to choose the most relevant entities in these parts for characterizing the event. An evaluation of this model based on an annotated corpus for earthquake events shows a 77% F1-measure for the template-filling task
Une tâche importante des systèmes d’extraction d’information se focalisant sur des événements est le remplissage de formulaires regroupant, en les caractérisant par leur type, les informations associées à un événement donné à partir d’un texte. Cette tâche peut s’avérer difficile lorsque l’information est dispersée à l’échelle du texte et mélangée à des éléments d’information liés à d’autres événements similaires. Nous proposons dans cet article une approche en deux étapes pour prendre en compte ce problème : d’abord une segmentation du texte en événements pour identifier les phrases relatives à un même événement, puis une méthode de sélection des entités liées à l’événement dans ces phrases. Une évaluation de cette approche sur un corpus annoté de dépêches dans le domaine des événements sismiques montre une F1mesure de 77 % pour la tâche de remplissage de formulaires.
Fichier non déposé

Dates et versions

hal-01849676 , version 1 (26-07-2018)

Identifiants

  • HAL Id : hal-01849676 , version 1

Citer

Ludovic Jean-Louis, Romaric Besancon, Olivier Ferret. Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires. Revue TAL : traitement automatique des langues, 2013. ⟨hal-01849676⟩
48 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More