Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe

Résumé

This article presents a new system that automatically translates images of arabic documents. Two modules are involved: an optical character recognition (OCR) module in Arabic and an Arabic-French machine translation module (MT). The OCR-MT coupling has not been much studied in the literature previously and the originality of this work consists in proposing a close coupling between OCR and MT as well as a specific processing of out-of-vocabulary (OOV) words due to OCR errors. The OCR-MT coupling based on an hypothesis lattice, as well as our OOV processing by replacement (according to a composite measure that takes into account surface form and context of the word) allow a significant improvement in translation performance. Our experiments are carried out on a challenging corpus of arabic newspapers digitized and we obtain BLEU improvements of 3,73 and 5,5 on our development and test corpora respectively.
Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l'originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu'un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d'OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d'obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.
Fichier principal
Vignette du fichier
papier_kamel.pdf (263.06 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01623072 , version 1 (09-11-2017)

Identifiants

  • HAL Id : hal-01623072 , version 1

Citer

Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, Mohamed Faouzi Benzeghiba. Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe. TALN 2017, Jun 2017, Orléans, France. ⟨hal-01623072⟩
244 Consultations
381 Téléchargements

Partager

Gmail Facebook X LinkedIn More