Appariement de phrases courtes pour la traduction automatique par l'exemple - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Appariement de phrases courtes pour la traduction automatique par l'exemple

Julien Gosme
  • Fonction : Auteur
  • PersonId : 941556

Résumé

Constitution of linguistic ressources for data-driven translation system is often a critical task. Those translation systems need corpus of aligned sentences for each language pairs. The consti- tution of those linguistic ressources are often done by human translators. We propose a method designed to automate the constitution of bilingual corpus of short sentences. This tool is based on a vector representation, comonly used in the information retrieval field. A bilingual dictionary is required for each language pair considered. The Web provides monolingual corpus of sentences. The pairing method is then applied to those sentences. The human cost of the overall method of constitution of bilingual corpus of sentence is extremely reduced: once the pairing applied, only a human validation is required on the bicorpus. An experiement on French-English data shows the precision of the pairing method. 800 sentences have been collected with a precision of 0.80 among 100,000 collected sentences for each language.
La constitution de ressources linguistiques pour les systèmes de traduction automatique fondée sur les données est une tâche critique. Ces systèmes de traduction ont besoin de corpus de phrases alignées pour chaque couple de langues. La constitution de telles ressources est généralement ef- fectuée à la main par des traducteurs. Nous proposons une méthode automatisant la constitution de corpus bilingues de phrases courtes en employant une représentation vectorielle bien connue en recherche d'information. Un dictionnaire bilingue est nécessaire par couple de langues consi- déré. Nous utilisons le Web afin de constituer des corpus de documents monolingues sur lesquels appliquer l'appariement de phrases courtes. Le coût humain total de la constitution d'un corpus bilingue de phrase est extrêmement réduit : seule une validation manuelle est nécessaire après appariement. Une expérience en français-anglais permet d'estimer la précision de la méthode d'appariement. 800 phrases traductions ont été collectées avec une précision supérieure ou égale à 0,8 à partir de 100 000 phrases collectées dans chaque langue.
Fichier principal
Vignette du fichier
majecstic09-appariement-phrases.pdf (74.33 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00439892 , version 1 (08-12-2009)

Identifiants

  • HAL Id : hal-00439892 , version 1

Citer

Julien Gosme. Appariement de phrases courtes pour la traduction automatique par l'exemple. MAnifestation des JEunes Chercheurs en Sciences et Technologies de l'Information et de la Communication, Nov 2009, Avignon, France. pp.972. ⟨hal-00439892⟩
311 Consultations
265 Téléchargements

Partager

Gmail Facebook X LinkedIn More