De l’étiquetage syntaxique pour les grammaires catégorielles de dépendances à l’analyse par transition dans le domaine de l’analyse en dépendances non-projective - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2014

From syntactic tagging for categorial dependency grammars to transition-based parsing in the domain of non-projective dependency parsing

De l’étiquetage syntaxique pour les grammaires catégorielles de dépendances à l’analyse par transition dans le domaine de l’analyse en dépendances non-projective

Résumé

This thesis takes place in the domain of syntactic dependency parsing. On the one hand we study the effect of a statistical method for syntactic tagging on a CDG-based parser (Categorial Dependency Grammar). We propose a pre-annotation process which includes the word-segmentation of sentences, the POS-tagging and the syntactic tagging of those words and the dependency analysis in order to alleviate the burden of the annotators in the context of the building of non-projective dependency treebanks for French. On the other hand, we study a data-driven method for dependency parsing through the adaptation of a transition-based parser to the dependency representation induced by the categorial dependency grammars. Moreover, we propose a three-steps transition-based method which performs separatly the prediction of the projective dependencies first and then the right and left non-projective dependencies in order to increase the prediction scores on non-projective dependencies. We show this method can be adapted to any standard dependency treebank.
Cette thèse prend place dans le domaine de l’analyse syntaxique en dépendances. D’une part nous étudions l’impact d’une méthode statistique d’étiquetage syntaxique sur un analyseur basé sur les grammaires catégorielles de dépendances. Nous proposons en ce sens un processus complet de pré-annotation comprenant la segmentation des phrases en mots (incluant les mots composés), l’étiquetage grammatical et syntaxique de ces mots et l’analyse en dépendances de la phrase dans le but d’alléger le travail des annotateurs dans le cadre de la construction de corpus en dépendances non-projectifs pour le français. D’autre part, nous étudions également les méthodes intégralement dirigées par les données dans le domaine de l’analyse en dépendances à travers l’adaptation d’un analyseur par transition à la représentation en dépendances des grammaires catégorielles de dépendances. Puis nous proposons une méthode séparant les étapes de prédiction des dépendances projectives et non-projectives dans le but d’améliorer la prédiction des dépendances non-projectives. Nous montrons que cette méthode est adaptable à n’importe quel corpus en dépendances standard.
Fichier principal
Vignette du fichier
these.pdf (1.34 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01112072 , version 1 (02-02-2015)

Identifiants

  • HAL Id : tel-01112072 , version 1

Citer

Ophélie Lacroix. De l’étiquetage syntaxique pour les grammaires catégorielles de dépendances à l’analyse par transition dans le domaine de l’analyse en dépendances non-projective . Informatique et langage [cs.CL]. Université de Nantes, 2014. Français. ⟨NNT : ⟩. ⟨tel-01112072⟩
287 Consultations
731 Téléchargements

Partager

Gmail Facebook X LinkedIn More