A graph-based information extraction method for template filling
Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires
Résumé
In event-based Information Extraction systems, a major task is the filling from a text of a template gathering information related to a particular event. Such template filling may be a hard task when the information is scattered throughout the text and mixed with similar pieces of information relative to different events. We propose in this paper a two-step approach for template filling: first, an event-based segmentation is performed to select the parts of the text related to the target event; then, a graph-based method is applied to choose the most relevant entities in these parts for characterizing the event. An evaluation of this model based on an annotated corpus for earthquake events shows a 77% F1-measure for the template-filling task
Une tâche importante des systèmes d’extraction d’information se focalisant sur des événements est le remplissage de formulaires regroupant, en les caractérisant par leur type, les informations associées à un événement donné à partir d’un texte. Cette tâche peut s’avérer difficile lorsque l’information est dispersée à l’échelle du texte et mélangée à des éléments d’information liés à d’autres événements similaires. Nous proposons dans cet article une approche en deux étapes pour prendre en compte ce problème : d’abord une segmentation du texte en événements pour identifier les phrases relatives à un même événement, puis une méthode de sélection des entités liées à l’événement dans ces phrases. Une évaluation de cette approche sur un corpus annoté de dépêches dans le domaine des événements sismiques montre une F1mesure de 77 % pour la tâche de remplissage de formulaires.