Modèles d'annotations morphologiques pour le traitement de données multivariées de l'arménien - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Modèles d'annotations morphologiques pour le traitement de données multivariées de l'arménien

Résumé

L'arménien est une langue comprenant de multiples variantes très inégales en termes de ressources disponibles en TAL. Nous avons entraîné un RNN pour réaliser l'annotation morphologique de différentes variantes de l'arménien, afin d’en comparer les résultats avec une approche par règles. Plusieurs tests ont permis d'évaluer la réutilisation d'un modèle non spécialisé de lemmatisation et de POS-tagging pour des variétés linguistiques sous représentées. Notre recherche s'est concentrée sur trois dialectes et a été étendue à l'arménien occidental, avec une précision moyenne de 94,00% en lemmatisation et 97,02% en POS-tagging, ainsi que sur une éventuelle réutilisation des modèles pour couvrir différentes autres variétés de l'arménien (jusqu'à 81% en POS-tagging). Nous montrons qu'une approche par RNN peut être une alternative valable à une approche par règles, en tenant compte de facteurs tels que la rapidité de traitement, la réutilisabilité pour différentes variétés d'une langue, et du gain qualitatif significatif en annotation morphologique.
Fichier principal
Vignette du fichier
2.pdf (1.39 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03047147 , version 1 (03-01-2021)

Identifiants

  • HAL Id : hal-03047147 , version 1

Citer

Chahan Vidal-Gorène, Victoria Khurshudyan, Anaïd Donabédian. Modèles d'annotations morphologiques pour le traitement de données multivariées de l'arménien. 2èmes journées scientifiques du Groupement de Recherche Linguistique Informatique Formelle et de Terrain (LIFT), Dec 2020, Montrouge (virtuel), France. pp.72-82. ⟨hal-03047147⟩
167 Consultations
47 Téléchargements

Partager

Gmail Facebook X LinkedIn More