Skip to Main content Skip to Navigation
Conference papers

TA statistique à petits corpus pour des petits sous-langages

Résumé : Nous avons appliqué un système de TA statistique au "portage linguistique" de l'arabe au français de CATS, un système traitant le contenu de brefs messages spontanés en langue naturelle (SMS). Il s'agit d'un "sous-langage" très restreint. Nous ne disposions que d'un très petit corpus parallèle, augmenté d'un dictionnaire bilingue assez complet lié à l'application choisie (petites annonces en occasion automobile). Bien que la TA statistique soit réputée ne fonctionner assez bien que si l'on dispose de très grands corpus parallèles, le système que nous avons construit avec Pharaoh a produit des résultats satisfaisants, au sens où les descripteurs de contenu obtenus sont assez proches de ceux obtenus à partir des SMS correspondants en arabe. Il semble donc qu'on puisse se passer de très grands corpus pour utiliser efficacement la TA statistique sur des "sous-langages" très restreints : les traductions ne sont pas très "fluides", mais elles sont "adéquates", et ce même si les deux "langues-mères" des deux sous-langages considérés sont assez distantes.
Document type :
Conference papers
Complete list of metadatas

Cited literature [19 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00390857
Contributor : Najeh Hajlaoui <>
Submitted on : Tuesday, June 2, 2009 - 8:09:00 PM
Last modification on : Friday, July 17, 2020 - 11:10:22 AM
Long-term archiving on: : Thursday, June 10, 2010 - 10:06:50 PM

File

TOTh-08_N-HAJLAOUI_C-BOITET-v3...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00390857, version 1

Collections

Citation

Najeh Hajlaoui, Christian Boitet. TA statistique à petits corpus pour des petits sous-langages. TOTh 2008 Conférence sur la Terminologie & Ontologie : Théories et Applications., Jun 2008, France. 20 p. ⟨hal-00390857⟩

Share

Metrics

Record views

296

Files downloads

219