Skip to Main content Skip to Navigation
Conference papers

Vers une solution légère de production de données pour le TAL : création d'un tagger de l'alsacien par crowdsourcing bénévole

Résumé : Nous présentons ici les résultats d'une expérience menée sur l'annotation en parties du discours d'un corpus d'une langue régionale encore peu dotée, l'alsacien, via une plateforme de myriadisation (crowdsourcing) bénévole développée spécifiquement à cette fin : Bisame 1. La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations grâce à 42 participants. L'évaluation des annotations, réalisée sur un corpus de référence, montre que la F-mesure des annotations volon-taires est de 0, 93. Le tagger entraîné sur le corpus annoté atteint lui 82 % d'exactitude. Il s'agit du premier tagger spécifique à l'alsacien. Cette méthode de développement de ressources langagières est donc efficace et prometteuse pour certaines langues peu dotées, dont un nombre suffisant de locuteurs est connecté et actif sur le Web. Le code de la plateforme, le corpus annoté et le tagger sont librement disponibles.
Document type :
Conference papers
Complete list of metadatas

Cited literature [24 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01516226
Contributor : Karën Fort <>
Submitted on : Thursday, October 5, 2017 - 11:42:51 AM
Last modification on : Monday, March 2, 2020 - 6:24:48 PM

File

taln2017_alsacien.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01516226, version 2

Citation

Alice Millour, Karën Fort, Delphine Bernhard, Lucie Steiblé. Vers une solution légère de production de données pour le TAL : création d'un tagger de l'alsacien par crowdsourcing bénévole. Traitement Automatique des Langues Naturelles (TALN), Jun 2017, Orléans, France. ⟨hal-01516226v2⟩

Share

Metrics

Record views

175

Files downloads

233