Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2005

Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

Résumé

We carry out an experiment aimed at using subcategorization information into a syntactic parser for PP attachment disambiguation. The subcategorization lexicon consists of probabilities between a word (verb, noun, adjective) and a preposition. The lexicon is acquired automatically from a 200 million word corpus, that is partially tagged and parsed. In order to assess the lexicon, we use 4 different corpora in terms of genre and domain. We D. Bourigault, C. Frérot assess various methods for PP attachment disambiguation : an exogeous method relies on the sub-categorization lexicon whereas an endogenous method relies on the corpus specific ressource only and an hybrid method makes use of both. The hybrid method proves to be the best and the results vary from 79.4 % to 87.2 %.

Domaines

Linguistique
Fichier principal
Vignette du fichier
taln05-bourigault-frerot.pdf (188.74 Ko) Télécharger le fichier
Loading...

Dates et versions

hal-00005567 , version 1 (24-06-2005)

Identifiants

  • HAL Id : hal-00005567 , version 1

Citer

Didier Bourigault, Cécile Frérot. Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique. TALN 2005, 2005, Dourdan, France. pp.373-382. ⟨hal-00005567⟩
140 Consultations
183 Téléchargements

Partager

Gmail Facebook X LinkedIn More