Création rapide et efficace d'un système de désambiguïsation lexicale pour une langue peu dotée

Résumé : Nous présentons une méthode pour créer rapidement un système de désambiguïsation lexicale (DL) pour une langue L peu dotée pourvu que l'on dispose d'un système de traduction automatique statistique (TAS) d'une langue riche en corpus annotés en sens (ici l'anglais) vers L. Il est, en effet, plus facile de disposer des ressources nécessaires à la création d'un système de TAS que des ressources dédiées nécessaires à la création d'un système de DL pour la langue L. Notre méthode consiste à traduire automatiquement un corpus annoté en sens vers la langue L, puis de créer le système de désambiguïsation pour L par des méthodes supervisées classiques. Nous montrons la faisabilité de la méthode et sa généricité en traduisant le SemCor, un corpus en anglais annoté grâce au Princeton WordNet, de l'anglais vers le bangla et de l'anglais vers le français. Nous montrons la validité de l'approche en évaluant les résultats sur la tâche de désambi-guïsation lexicale multilingue de Semeval 2013. Abstract. Rapid Construction of Supervised Word Sense Disambiguation System for Lesser-resourced Languages We introduce a method to quickly build a Word Sense Disambiguation (WSD) system for a lesser-resourced language L, under the condition that a Statistical Machine Transation system (SMT) is available from a well resourced language where semantically annotated corpora are available (here, English) towards L. We argue that it is less difficult to obtain the resources mandatory for the development of an SMT system (parallel-corpora) than it is to create the resources necessary for a WSD system (semantically annotated corpora, lexical resources). In the present work, we propose to translate a semantically annotated corpus from English to L and then to create a WSD system for L following the classical supervised WSD paradigm. We demonstrate the feasibility and genericity of our proposed method by translating SemCor from English to Bangla and from English to French. SemCor is an English corpus annotated with Princeton WordNet sense tags. We show the feasibility of the approach using the Multilingual WSD task from Semeval 2013. Mots-clés : clarification de texte, désambiguïsation lexicale, langues peu dotées, traduction automatique, portage d'annotations.
Type de document :
Communication dans un congrès
22ème conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01856098
Contributeur : Didier Schwab <>
Soumis le : jeudi 9 août 2018 - 16:36:22
Dernière modification le : lundi 11 février 2019 - 16:36:02
Document(s) archivé(s) le : samedi 10 novembre 2018 - 13:21:11

Fichier

NTBS-taln2015.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01856098, version 1

Collections

Citation

Mohammad Nasiruddin, Andon Tchechmedjiev, Hervé Blanchon, Didier Schwab. Création rapide et efficace d'un système de désambiguïsation lexicale pour une langue peu dotée. 22ème conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. 〈hal-01856098〉

Partager

Métriques

Consultations de la notice

26

Téléchargements de fichiers

30