TA statistique à petits corpus pour des petits sous-langages - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

TA statistique à petits corpus pour des petits sous-langages

Résumé

Nous avons appliqué un système de TA statistique au "portage linguistique" de l'arabe au français de CATS, un système traitant le contenu de brefs messages spontanés en langue naturelle (SMS). Il s'agit d'un "sous-langage" très restreint. Nous ne disposions que d'un très petit corpus parallèle, augmenté d'un dictionnaire bilingue assez complet lié à l'application choisie (petites annonces en occasion automobile). Bien que la TA statistique soit réputée ne fonctionner assez bien que si l'on dispose de très grands corpus parallèles, le système que nous avons construit avec Pharaoh a produit des résultats satisfaisants, au sens où les descripteurs de contenu obtenus sont assez proches de ceux obtenus à partir des SMS correspondants en arabe. Il semble donc qu'on puisse se passer de très grands corpus pour utiliser efficacement la TA statistique sur des "sous-langages" très restreints : les traductions ne sont pas très "fluides", mais elles sont "adéquates", et ce même si les deux "langues-mères" des deux sous-langages considérés sont assez distantes.
Fichier principal
Vignette du fichier
TOTh-08_N-HAJLAOUI_C-BOITET-v3.pdf (560.85 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00390857 , version 1 (02-06-2009)

Identifiants

  • HAL Id : hal-00390857 , version 1

Citer

Najeh Hajlaoui, Christian Boitet. TA statistique à petits corpus pour des petits sous-langages. TOTh 2008 Conférence sur la Terminologie & Ontologie : Théories et Applications., Jun 2008, France. 20 p. ⟨hal-00390857⟩
147 Consultations
161 Téléchargements

Partager

Gmail Facebook X LinkedIn More