Post-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Post-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique

Stéphane Huet
Fabrice Lefèvre
Georges Linares

Résumé

Statistical Post-Editing of Machine Translation for Domain Adaptation This paper presents a statistical approach to adapt generic machine translation systems to the medical domain through an unsupervised post-edition step. A statistical post-edition model is built on statistical machine translation outputs aligned with their translation references. Evaluations carried out to translate medical texts from French to English show that a generic machine translation system can be adapted a posteriori to a specific domain. Two systems are studied : a state-of-the-art phrase-based implementation and an online publicly available software. Our experiments also indicate that selecting sentences for post-edition leads to significant improvements of translation quality and that more gains are still possible with respect to an oracle measure.
Cet article présente une approche de post-édition statistique pour adapter aux domaines de spé-cialité des systèmes de traduction automatique génériques. En utilisant les traductions produites par ces systèmes, alignées avec leur traduction de référence, un modèle de post-édition basé sur un alignement sous-phrastique est construit. Les expériences menées entre le français et l'anglais pour le domaine médical montrent qu'une telle adaptation a posteriori est possible. Deux systèmes de traduction statistiques sont étudiés : une implémentation locale état-de-l'art et un outil libre en ligne. Nous proposons aussi une méthode de sélection de phrases à post-éditer permettant d'emblée d'accroître la qualité des traductions et pour laquelle les scores oracles indiquent des gains encore possibles.
Fichier principal
Vignette du fichier
TALN12.pdf (219.7 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01320234 , version 1 (27-02-2019)

Identifiants

  • HAL Id : hal-01320234 , version 1

Citer

Raphael Rubino, Stéphane Huet, Fabrice Lefèvre, Georges Linares. Post-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique. 19ème conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2012, Grenoble, France. pp.527-534. ⟨hal-01320234⟩

Collections

UNIV-AVIGNON LIA
115 Consultations
54 Téléchargements

Partager

Gmail Facebook X LinkedIn More