Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan

Résumé

Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes. Abstract. Pos-tagging the Lengadocian dialect of Occitan: a little Lengadocian befriends a big Catalan. In this study, we examine the question of Occitan POS-tagging. We use Talismane, a supervised machine learning NLP tool, requiring annotated data for training and optionally a lexicon. We show that, with insufficient data for Occitan, it is possible to obtain good results (92%) by using data from an etymologically close language, in this case Catalan. We used the Catalan Ancora corpus (500,000 tokens) and an Occitan Languedocien lexicon (250,000 entries). Using the larger Catalan corpus improved results by +3% with respect to the result obtained using the only Occitan training corpus available to date (2,800 tokens). Mots-clés : traitement automatique des langues peu dotées, occitan, analyse morphosyntaxique

Domaines

Linguistique
Fichier principal
Vignette du fichier
talare-2015-long-007.pdf (526.78 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01214566 , version 1 (12-10-2015)

Identifiants

  • HAL Id : hal-01214566 , version 1

Citer

Marianne Vergez-Couret, Assaf Urieli. Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan. TALARE 2015, Jun 2015, Caen, France. ⟨hal-01214566⟩
251 Consultations
565 Téléchargements

Partager

Gmail Facebook X LinkedIn More