Segmentation Multilingue des Mots Composés - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Segmentation Multilingue des Mots Composés

Résumé

La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (mesure de similarité, données du corpus) avec des règles de transformation sur les frontières des composants spécifiques à une langue. Nos expériences de segmentation de termes composés allemands et russes montrent une exactitude jusqu'à 95 % pour l'allemand et jusqu'à 91 % pour le russe. Nous constatons que l'utilisation de corpus spécialisés relevant du même domaine que les composés améliore la qualité de segmentation.
Fichier principal
Vignette du fichier
taln13_loginova_daille.pdf (133.78 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00920305 , version 1 (18-12-2013)

Identifiants

  • HAL Id : hal-00920305 , version 1

Citer

Elizaveta Loginova Clouet, Béatrice Daille. Segmentation Multilingue des Mots Composés. Traitement Automatique des Langues Naturelles (TALN), Jun 2013, Sables d'Olonne, France. pp.564-571. ⟨hal-00920305⟩
102 Consultations
193 Téléchargements

Partager

Gmail Facebook X LinkedIn More