Appariement de phrases courtes pour la traduction automatique par l'exemple
Résumé
Constitution of linguistic ressources for data-driven translation system is often a critical task. Those translation systems need corpus of aligned sentences for each language pairs. The consti- tution of those linguistic ressources are often done by human translators. We propose a method designed to automate the constitution of bilingual corpus of short sentences. This tool is based on a vector representation, comonly used in the information retrieval field. A bilingual dictionary is required for each language pair considered. The Web provides monolingual corpus of sentences. The pairing method is then applied to those sentences. The human cost of the overall method of constitution of bilingual corpus of sentence is extremely reduced: once the pairing applied, only a human validation is required on the bicorpus. An experiement on French-English data shows the precision of the pairing method. 800 sentences have been collected with a precision of 0.80 among 100,000 collected sentences for each language.
La constitution de ressources linguistiques pour les systèmes de traduction automatique fondée sur les données est une tâche critique. Ces systèmes de traduction ont besoin de corpus de phrases alignées pour chaque couple de langues. La constitution de telles ressources est généralement ef- fectuée à la main par des traducteurs. Nous proposons une méthode automatisant la constitution de corpus bilingues de phrases courtes en employant une représentation vectorielle bien connue en recherche d'information. Un dictionnaire bilingue est nécessaire par couple de langues consi- déré. Nous utilisons le Web afin de constituer des corpus de documents monolingues sur lesquels appliquer l'appariement de phrases courtes. Le coût humain total de la constitution d'un corpus bilingue de phrase est extrêmement réduit : seule une validation manuelle est nécessaire après appariement. Une expérience en français-anglais permet d'estimer la précision de la méthode d'appariement. 800 phrases traductions ont été collectées avec une précision supérieure ou égale à 0,8 à partir de 100 000 phrases collectées dans chaque langue.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...