Traitement automatique des entités nommées en arabe : détection et traduction - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2014

Traitement automatique des entités nommées en arabe : détection et traduction

Hélène Maynard
  • Fonction : Auteur
  • PersonId : 177303
  • IdHAL : hbm
  • IdRef : 137151756
François Yvon

Résumé

The recognition of Arabic Named Entities (NE) is a potentially useful preprocessing step for many Natural Language Processing Applications, such as Statistical Machine Translation (SMT). Due to peculiarities of the written Arabic language, this task is however rather challenging. In this paper, we present a detailed study of Arabic NEs in the context of a SMT system. We present our statistical NE recognition system (NERAr), and its various evolutions. NERAr was then used as a processing step, thus enabling us to incorporate external linguistic knowledge into the SMT system. Several strategies for performing this integration are explored. Automatic evaluations, corroborated by manual inspections, indicate a small improvement of the translation quality of NEs, and a reduction of the errors caused by out-of-vocabulary words.
La détection des entités nommées (EN) en langue arabe est un prétraitement poten-tiellement utile pour de nombreuses applications du traitement des langues, en particulier pour la traduction automatique. Cette tâche représente un sérieux défi, compte tenu des spécificités de l'arabe. Dans cet article, nous présentons une étude détaillée des entités nommées en arabe dans le cadre d'une application de traduction automatique statistique. Nous présentons notre système de détection des EN en arabe (NERAr), dans sa configuration de base, puis dans ses diverses évolutions. Dans notre architecture, NERAr est utilisé comme un prétraitement appor-tant des connaissances externes au système de traduction. Plusieurs stratégies d'intégration de ces connaissances sont considérées; dans la configuration la plus favorable, une évaluation au-tomatique, corroborée par des analyses manuelles, permet d'observer une légère amélioration de la traduction des EN et une réduction des erreurs induites par les mots inconnus.
Fichier principal
Vignette du fichier
Gahbiche-Braham-TAL54-2.pdf (378.86 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01663487 , version 1 (06-01-2019)

Identifiants

  • HAL Id : hal-01663487 , version 1

Citer

Souhir Gahbiche-Braham, Hélène Maynard, François Yvon. Traitement automatique des entités nommées en arabe : détection et traduction. Revue TAL : traitement automatique des langues, 2014, 54, pp.101-132. ⟨hal-01663487⟩
156 Consultations
107 Téléchargements

Partager

Gmail Facebook X LinkedIn More