Vers une solution légère de production de données pour le TAL : création d'un tagger de l'alsacien par crowdsourcing bénévole

Résumé : Nous présentons ici les résultats d'une expérience menée sur l'annotation en parties du discours d'un corpus d'une langue régionale encore peu dotée, l'alsacien, via une plateforme de myriadisation (crowdsourcing) bénévole développée spécifiquement à cette fin : Bisame 1. La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations grâce à 42 participants. L'évaluation des annotations, réalisée sur un corpus de référence, montre que la F-mesure des annotations volon-taires est de 0, 93. Le tagger entraîné sur le corpus annoté atteint lui 82 % d'exactitude. Il s'agit du premier tagger spécifique à l'alsacien. Cette méthode de développement de ressources langagières est donc efficace et prometteuse pour certaines langues peu dotées, dont un nombre suffisant de locuteurs est connecté et actif sur le Web. Le code de la plateforme, le corpus annoté et le tagger sont librement disponibles.
Type de document :
Communication dans un congrès
Traitement Automatique des Langues Naturelles (TALN), Jun 2017, Orléans, France
Liste complète des métadonnées

Littérature citée [24 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01516226
Contributeur : Karën Fort <>
Soumis le : jeudi 5 octobre 2017 - 11:42:51
Dernière modification le : mercredi 14 mars 2018 - 16:45:23

Fichier

taln2017_alsacien.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01516226, version 2

Collections

Citation

Alice Millour, Karën Fort, Delphine Bernhard, Lucie Steiblé. Vers une solution légère de production de données pour le TAL : création d'un tagger de l'alsacien par crowdsourcing bénévole. Traitement Automatique des Langues Naturelles (TALN), Jun 2017, Orléans, France. 〈hal-01516226v2〉

Partager

Métriques

Consultations de la notice

71

Téléchargements de fichiers

86