Segmentation morphologique à partir de corpus - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2005

Segmentation morphologique à partir de corpus

Résumé

We describe a method that automatically segments words into morphs. The algorithm only uses a list of words collected in a corpus. It is based on the conditional probabilities between the substrings extracted from this lexicon. The method also makes use of word segments alignment graphs. As a result, all words are segmented into a sequence of morphs which has the following pattern: (prefix*) + base + (suffix*). We evaluate the morphological families discovered by the algorithm using a corpus of French medical texts containing words whose morphological structure is complex.
Nous décrivons une méthode de segmentation morphologique automatique. L'algorithme utilise uniquement une liste des mots d'un corpus et tire parti des probabilités conditionnelles observées entre les sous-chaînes extraites de ce lexique. La méthode est également fondée sur l'utilisation de graphes d'alignement de segments de mots. Le résultat est un découpage de chaque mot sous la forme (préfixe*) + base + (suffixe*). Nous évaluons la pertinence des familles morphologiques découvertes par l'algorithme sur un corpus de textes médicaux français contenant des mots à la structure morphologique complexe.
Fichier non déposé

Dates et versions

hal-00800385 , version 1 (13-03-2013)

Identifiants

  • HAL Id : hal-00800385 , version 1

Citer

Delphine Bernhard. Segmentation morphologique à partir de corpus. Actes de la Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2005), Jun 2005, Dourdan, France. pp.555-564. ⟨hal-00800385⟩
832 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More