Hétérogénéité des corpus: vers un parseur robuste reconfigurable et adaptable - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2000

Hétérogénéité des corpus: vers un parseur robuste reconfigurable et adaptable

Núria Gala

Résumé

L'analyse syntaxique robuste est devenue une technique essentielle à toute application qui touche au contenu des documents. Les analyseurs inscrits dans cette approche permettent d'extraire des informations d'ordre linguistique qui peuvent être exploitées postérieurement par des traitements linguistiques plus profonds ou par des systèmes de recherche d'information. Une des caractéristiques principales de ces outils est leur robustesse. Or, cette robustesse est souvent diminuée par la grande hétérogénéité de phénomènes linguistiques et extralinguistiques présents dans les textes tout-venant. Cet article présente tout d'abord (section 1) la notion de robustesse et caractérise (section 2) les systèmes d'analyse syntaxique robuste. L'article présente par la suite (section 3) un inventaire de phénomènes linguistiques et extralinguistiques non-standard attestés dans divers corpus et, finalement, (section 4) une architecture qui se propose de traiter ces phénomènes.
Fichier principal
Vignette du fichier
gala-recital00.pdf (51.29 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03198934 , version 1 (15-04-2021)

Identifiants

  • HAL Id : hal-03198934 , version 1

Citer

Núria Gala. Hétérogénéité des corpus: vers un parseur robuste reconfigurable et adaptable. Traitement Automatique des Langues (TALN-RECITAL 2000), Oct 2000, Lausanne, Suisse. ⟨hal-03198934⟩
6 Consultations
16 Téléchargements

Partager

Gmail Facebook X LinkedIn More