Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe

Résumé : Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l'originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu'un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d'OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d'obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.
Type de document :
Communication dans un congrès
TALN 2017, Jun 2017, Orléans, France. Actes de TALN 2017, volume 1
Liste complète des métadonnées

Littérature citée [36 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01623072
Contributeur : Benjamin Lecouteux <>
Soumis le : jeudi 9 novembre 2017 - 13:40:59
Dernière modification le : lundi 29 octobre 2018 - 23:07:25
Document(s) archivé(s) le : samedi 10 février 2018 - 15:06:17

Fichier

papier_kamel.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01623072, version 1

Collections

Citation

Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, Mohamed Faouzi Benzeghiba. Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe. TALN 2017, Jun 2017, Orléans, France. Actes de TALN 2017, volume 1. 〈hal-01623072〉

Partager

Métriques

Consultations de la notice

129

Téléchargements de fichiers

251