TA statistique à petits corpus pour des petits sous-langages

Najeh Hajlaoui; Christian Boitet

Communication Dans Un Congrès Année : 2008

TA statistique à petits corpus pour des petits sous-langages

(1, 2, 3) , (1, 2, 3)

1
2
3

Najeh Hajlaoui

Fonction : Auteur
PersonId : 855324

Laboratoire d'Informatique de Grenoble

Institut d'Informatique et de Mathématiques Appliquées de Grenoble

Communication Langagière et Interaction Personne-Système

Christian Boitet

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Institut d'Informatique et de Mathématiques Appliquées de Grenoble

Communication Langagière et Interaction Personne-Système

Résumé

Nous avons appliqué un système de TA statistique au "portage linguistique" de l'arabe au français de CATS, un système traitant le contenu de brefs messages spontanés en langue naturelle (SMS). Il s'agit d'un "sous-langage" très restreint. Nous ne disposions que d'un très petit corpus parallèle, augmenté d'un dictionnaire bilingue assez complet lié à l'application choisie (petites annonces en occasion automobile). Bien que la TA statistique soit réputée ne fonctionner assez bien que si l'on dispose de très grands corpus parallèles, le système que nous avons construit avec Pharaoh a produit des résultats satisfaisants, au sens où les descripteurs de contenu obtenus sont assez proches de ceux obtenus à partir des SMS correspondants en arabe. Il semble donc qu'on puisse se passer de très grands corpus pour utiliser efficacement la TA statistique sur des "sous-langages" très restreints : les traductions ne sont pas très "fluides", mais elles sont "adéquates", et ce même si les deux "langues-mères" des deux sous-langages considérés sont assez distantes.

Mots clés

extraction de contenu sous-langage langue générale langue standard énoncés spontanés traduction statistique extraction de contenu.

Domaines

Informatique et langage [cs.CL]

Fichier principal

TOTh-08_N-HAJLAOUI_C-BOITET-v3.pdf (560.85 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Najeh Hajlaoui : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00390857

Soumis le : mardi 2 juin 2009-20:09:00

Dernière modification le : jeudi 4 avril 2024-21:36:22

Archivage à long terme le : jeudi 10 juin 2010-22:06:50

Dates et versions

hal-00390857 , version 1 (02-06-2009)

Identifiants

HAL Id : hal-00390857 , version 1

Citer

Najeh Hajlaoui, Christian Boitet. TA statistique à petits corpus pour des petits sous-langages. TOTh 2008 Conférence sur la Terminologie & Ontologie : Théories et Applications., Jun 2008, France. 20 p. ⟨hal-00390857⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS LIG LIG_TDCGE LIG_TDCGE_GETALP LIG_SIDCH

147 Consultations

161 Téléchargements

TA statistique à petits corpus pour des petits sous-langages

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager