Construction du jeu d'étiquettes pour le parsing du serbe

Aleksandra Miletic; Cécile Fabre; Dejan Stosic

Communication Dans Un Congrès Année : 2015

Constructing a syntactic tagset for the parsing of Serbian

Construction du jeu d'étiquettes pour le parsing du serbe

(1) , (1) , (1)

Aleksandra Miletic

Fonction : Auteur
PersonId : 1028050

Cognition, Langues, Langage, Ergonomie

Cécile Fabre

Fonction : Auteur
PersonId : 6972
IdHAL : cecilefabre
ORCID : 0000-0002-6954-9224
IdRef : 052157776

Cognition, Langues, Langage, Ergonomie

Dejan Stosic

Fonction : Auteur
PersonId : 11321
IdHAL : dejan-stosic
ORCID : 0000-0003-3853-983X
IdRef : 070166846

Cognition, Langues, Langage, Ergonomie

Résumé

This paper presents the process of the construction of a syntactic tagset for Serbian. This tagset is intended for the constitution of a training corpus for the parsing of Serbian, in the global aim of linguistic annotation of the ParCoLab corpus, a parallel corpus of Serbian, French and English. Since there are still no treebanks for Serbian, a manually annotated training corpus must be created. As the parsing results can be affected by the structure and size of the tagset, its definition is a crucial stage. In the tag selection process, we were guided by two main goals: reconcile the Serbian and the French grammar tradition for technical and linguistic reasons and maintain the comparability with existing tagsets for other Slavic languages. This strategy led us to 28 tags that ensure the coherence of annotation between different subcorpora and allow for the exploitation of tools developped for other languages in the manual annotation process.

Cet article présente la démarche utilisée pour la construction d'un jeu d'étiquettes syntaxiques destiné à l'élaboration d'un corpus d'entraînement pour le parsing du serbe dans le but de doter le corpus ParCoLab (corpus parallèle serbe-français-anglais) d'une annotation syntaxique. Vu que le serbe ne dispose pas encore de treebank, il est nécessaire d'élaborer manuellement un corpus d'entraînement. Comme la structure et la taille du jeu d'étiquettes peuvent affecter les résultats du parsing, la définition du jeu est une étape cruciale. Dans le choix des étiquettes, nous avons été guidés par deux principes : réconcilier les traditions grammaticales serbe et française pour des raisons techniques et théoriques et maintenir la comparabilité avec les jeux d'étiquettes élaborés pour d'autres langues slaves. Cette démarche aboutit à un jeu de 28 étiquettes qui assurent la cohérence des traitements dans les différents volets du corpus et la possibilité d'exploiter les outils développés pour d'autres langues dans l'élaboration du corpus d'entraînement.

Mots clés

Parsing Serbian language Parallel corpus Tagset

jeu d'étiquettes serbe corpus parallèle

Domaines

Linguistique

Fichier principal

tasla-2015-long-001.pdf (699.47 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Aleksandra Miletić : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01476701

Soumis le : samedi 25 février 2017-14:09:12

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : vendredi 26 mai 2017-12:17:23

Dates et versions

hal-01476701 , version 1 (25-02-2017)

Identifiants

HAL Id : hal-01476701 , version 1

Citer

Aleksandra Miletic, Cécile Fabre, Dejan Stosic. Construction du jeu d'étiquettes pour le parsing du serbe. 22e journées du Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. ⟨hal-01476701⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EPHE UNIV-TLSE2 CNRS CLLE PSL UNIV-BORDEAUX-MONTAIGNE

238 Consultations

205 Téléchargements

Constructing a syntactic tagset for the parsing of Serbian

Construction du jeu d'étiquettes pour le parsing du serbe

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager