Exploitation de l'Asymétrie entre Termes pour l'Extraction Automatique de Taxonomies à partir de Textes. - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Exploitation de l'Asymétrie entre Termes pour l'Extraction Automatique de Taxonomies à partir de Textes.

Résumé

We present in this paper a new approach for the automatic generation of lexical structures from texts. This task is based on the strong hypothesis that simple statistical observations on textual usages can provide pieces of semantics about the lexicon. Using such "naive" observations only, we propose a (pre)-topological framework to formalize and combine various hypotheses on textual data usages and then to derive a structure similar to usual lexical knowledge databases such as WordNet. In addition, we also consider the evaluation problem for the resulting lexical structures; our evaluation strategy is organized as a multi-level evaluation process, measuring the fitting between a given reference structure and an automatically generated structure from two different points of view: intrinsic/structural and application-based. The evaluation strategy is then used to quantify the contribution of the new structuring approach with respect to the corresponding solution proposed by (Sanderson et al., 2000) on two case studies that differ on the domain and the size of the lexicon.
Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l'hypothèse forte selon laquelle l'accumulation de faits statistiques simples sur les usages en corpus permet d'approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme cadre de travail afin de formaliser et de combiner plusieurs hypothèses sur les usages terminologiques et enfin de structurer le lexique sous la forme d'une taxonomie. Nous considérons également le problème de l'évaluation des taxonomies résultantes et proposons un nouvel indice afin de les comparer et de positionner notre approche par rapport à la littérature.
Fichier principal
Vignette du fichier
ACTN-BUSCALDI-2012-1.pdf (236.82 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01071621 , version 1 (06-10-2014)

Identifiants

  • HAL Id : hal-01071621 , version 1

Citer

Davide Buscaldi, Guillaume Cleuziou, Gaël Dias, Vincent Levorato. Exploitation de l'Asymétrie entre Termes pour l'Extraction Automatique de Taxonomies à partir de Textes.. 12th Conférence Internationale Francophone sur l'Extraction et la Gestion de Connaissance (EGC 2012)., Jan 2012, Bordeaux, France. pp.345-356. ⟨hal-01071621⟩
179 Consultations
59 Téléchargements

Partager

Gmail Facebook X LinkedIn More