Un analyseur de surface non déterministe pour le français - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Un analyseur de surface non déterministe pour le français

Résumé

Rule-based chunkers are characterized by a two-tier process: part-of-speech disambiguation, and pattern matching. Considering that these two stages introduce some redundancy in the linguistic description and a dilution of heuristics over the different processes, we propose to define a chunker which parses a non-disambiguated input, and produces all possible analysis in terms of chunks. The parser, implemented with NooJ, relies on the definition of extended patterns, which annotate sequences of chunks. The results obtained on an approx. 22500 word corpus, with almost 100% recall, demonstrate the feasability of the approach, and signal which ambiguities should be further studied in order to improve precision.
Les analyseurs syntaxiques de surface à base de règles se caractérisent par un processus en deux temps: désambiguïsation lexicale, puis reconnaissance de patrons. Considérant que ces deux étapes introduisent une certaine redondance dans la description linguistique et une dilution des heuristiques dans les différents processus, nous proposons de définir un analyseur de surface qui fonctionne sur une entrée non désambiguïsée et produise l'ensemble des analyses possibles en termes de syntagmes noyau (chunks). L'analyseur, implanté avec NooJ, repose sur la définition de patrons étendus qui annotent des séquences de syntagmes noyau. Les résultats obtenus sur un corpus de développement d'environ 22 500 mots, avec un rappel proche de 100%, montrent la faisabilité de l'approche et signalent quelques points d'ambiguïté à étudier plus particulièrement pour améliorer la précision.
Fichier principal
Vignette du fichier
ftrouilleux_taln2009.pdf (165.69 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00403924 , version 1 (14-07-2009)

Identifiants

  • HAL Id : hal-00403924 , version 1

Citer

François Trouilleux. Un analyseur de surface non déterministe pour le français. Traitement automatique des langues naturelles (TALN), Jun 2009, Senlis, France. http://www-lipn.univ-paris13.fr/taln09/paper/paper_TALN_6.html. ⟨hal-00403924⟩

Collections

PRES_CLERMONT LRL
111 Consultations
221 Téléchargements

Partager

Gmail Facebook X LinkedIn More