Vers une démocratisation des outils de constitution de corpus parallèles - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Vers une démocratisation des outils de constitution de corpus parallèles

Résumé

Machine translation (MT) has won its place in the world of translation: MT-related contents (such as post-editing) are now a fixture in the translation curriculum, and in professional settings MT is accessed through plug- ins within CAT environments. Nonetheless, MT engine customisation – a crucially important task for an MT system’s performance – remains too often out of translators’ reach. Indeed, bilingual corpora are rarely available, and often ill- suited to the task (few are domain-specific). Moreover, the tools available to (trainee) translators for building training corpora are still too complex for them to use. Our work aims at democratising such tools. As part of a hands-on activity, we set out to simplify the parallel corpus building process, by assembling a ‘toolbox’ which handles the process as a sequence of easier-to-handle tasks. Further automation of the process is possible.
Si la traduction automatique (TA) a désormais conquis sa place dans le milieu de la traduction, que ce soit dans un contexte de formation (e.g. l'apparition de cours de post-édition) ou en milieu professionnel (e.g. l'intégration des outils de TA directement à l'environnement de TAO), l'étape cruciale consistant à personnaliser ces outils est encore aujourd'hui hors de portée du traducteur. En effet, les corpus bilingues disponibles sont rares et souvent peu adaptés car non spécialisés, et les outils existants pour constituer de telles ressources sont trop complexes à utiliser pour les (apprentis-)traducteurs. Ce travail vise à démocratiser la constitution de ces ressources parallèles. Dans le cadre d'une activité pédagogique, nous avons proposé de simplifier au maximum la procédure nécessaire à l'élaboration des corpus et de constituer une boîte à outils permettant d'enchaîner plus facilement les tâches du processus. Une automatisation plus poussée du processus est également envisagée.
Fichier principal
Vignette du fichier
moreau_efraim_rennes2_corpus-paralleles_FINAL.pdf (67.49 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01347090 , version 1 (20-07-2016)

Identifiants

  • HAL Id : hal-01347090 , version 1

Citer

Octavia Efraim, Fabienne Moreau. Vers une démocratisation des outils de constitution de corpus parallèles. Conférence TAO-CAT 2015, Jun 2015, Angers, France. ⟨hal-01347090⟩
121 Consultations
104 Téléchargements

Partager

Gmail Facebook X LinkedIn More