Extraction automatique de traductions anglaises de mots composés français - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Extraction automatique de traductions anglaises de mots composés français

Résumé

La traduction des expressions multi-mots pose de sérieux problèmes du fait de leurs contraintes syntaxiques et sémantiques. Par ailleurs, bien qu’elles soient très présentes dans les textes, la fréquence des expressions multi-mots prises individuellement est relativement faible ce qui cause des difficultés statistiques pour extraire les traductions. Dans notre article, nous traitons uniquement les mots composés, séquences de mots contigus non-compositionnelles, qui sont présentes dans le dictionnaire DELACF. Nous confrontons les méthodes utilisées pour les collocations aux mots composés. Etant donné un mot composé identifié dans une phrase en français d’un corpus parallèle, le but est d’extraire automatiquement la traduction du mot composé dans la phrase correspondante en anglais, si elle existe, en tenant compte du fait qu’elle n’est pas forcément un mot composé anglais. Ce balisage permet d'extraire du corpus un ensemble de traductions et ainsi initier la création d'une ressource bilingue. Les mots composés que nous traitons appartiennent à quatre catégories : les noms, les adverbes, les conjonctions et les prépositions. Nous nous basons sur les études réalisées sur l’extraction statistique des traductions de collocations. Celles-ci se fondent sur les modèles probabilistes IBM d’alignement ou sur des mesures d’ association.
Fichier principal
Vignette du fichier
cmlf2010_000255.pdf (287.52 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01255288 , version 1 (13-01-2016)

Identifiants

Citer

Mathieu Constant, Takuya Nakamura, Stavroula Voyatzi, André Bittar. Extraction automatique de traductions anglaises de mots composés français. Congrés Mondial de la Linguistique Française, Jul 2010, Nouvelle-Orléans, États-Unis. ⟨10.1051/cmlf/2010255⟩. ⟨hal-01255288⟩
120 Consultations
138 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More