How Does Language Influence Documentation Workflow? Unsupervised Word Discovery Using Translations in Multiple Languages
Résumé
Comment la langue influence le processus de documentation ? Découverte non supervisée de mots basée sur des traductions en langues multiples Pour la documentation des langues, la transcription est un processus très coûteux : une minute d'enregistrement nécessiterait environ une heure et demie de travail pour un linguiste (Austin and Sallabank, 2013). Récemment, la collecte de traductions (dans des langues bien documentées) alignées aux enregistrements est devenue une solution populaire pour garantir l'interprétabilité des enregistrements (Adda et al., 2016) et aider à leur traitement automatique. Dans cet article, nous étudions l'impact de la langue de traduction sur les approches automatiques en documentation des langues. Nous traduisons un corpus parallèle bilingue Mboshi-Français (Godard et al., 2017) dans quatre autres langues, et évaluons l'impact de la langue de traduction sur une tâche de segmentation en mots non supervisée. Nos résultats suggèrent que la langue de traduction peut influencer légèrement la qualité de segmentation. Cependant, combiner l'information apprise par différents modèles bilingues nous permet d'améliorer ces résultats de manière marginale.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...