Représentation et analyse automatique des discontinuités syntaxiques dans les corpus arborés en constituants du français - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Représentation et analyse automatique des discontinuités syntaxiques dans les corpus arborés en constituants du français

Résumé

The article introduces novel instanciations of three French constituent treebanks in which certain syntactic phenomena responsible for long-distance dependencies are represented with discontinuous constituents. Resulting trees are mildly context-sentitive structures, and can be modeled with, e.g. LCFRS. We show that such structures can be parsed efficiently, by introducing a neural transition-based discontinuous parser, that also performs morphological analysis and functional tagging. Our experiments show that the sparsity of these phenomena in French treebanks makes learning and evaluation of discontinuous structures difficult
Nous présentons de nouvelles instanciations de trois corpus arborés en constituants du français, où certains phénomènes syntaxiques à l’origine de dépendances à longue distance sont représentés directement à l’aide de constituants discontinus. Les arbres obtenus relèvent de formalismes grammaticaux légèrement sensibles au contexte (LCFRS). Nous montrons ensuite qu’il est possible d’analyser automatiquement de telles structures de manière efficace à condition de s’appuyer sur une méthode d’inférence approximative. Pour cela, nous présentons un analyseur syntaxique par transitions, qui réalise également l’analyse morphologique et l’étiquetage fonctionnel des mots de la phrase. Enfin, nos expériences montrent que la rareté des phénomènes concernés dans les données françaises pose des difficultés pour l’apprentissage et l’évaluation des structures discontinues.
Fichier principal
Vignette du fichier
taln2017.pdf (325.83 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01622631 , version 1 (24-10-2017)

Identifiants

  • HAL Id : hal-01622631 , version 1

Citer

Maximin Coavoux, Benoît Crabbé. Représentation et analyse automatique des discontinuités syntaxiques dans les corpus arborés en constituants du français. Actes de la 24e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2017, Orléans, France. pp.77--92. ⟨hal-01622631⟩
141 Consultations
293 Téléchargements

Partager

Gmail Facebook X LinkedIn More