Limites de la lemmatisation pour l'extraction de significations - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Limites de la lemmatisation pour l'extraction de significations

Résumé

La lemmatisation des corpus est une procédure répandue que l'on effectue parfois par simple respect d'une tradition. Cet article met en évidence les limites de cette opération dans le cas de l'extraction automatique d'informations sémantiques, c'estàdire lorsque le contexte d'apparition des mots est utilisé. Nous montrons dans une première partie que les contextes des formes plurielles et singulières de 58 mots dans un vaste corpus diffèrent significativement, ce qui laisse penser que remplacer les uns par les autres peut affecter les performances des systèmes d'extraction de significations. Dans une second partie, nous recourons à l'analyse de la sémantique latente (LSA) pour montrer d'une autre manière que les contextes des deux formes ne sont pas les mêmes et que les performances du système sur un test de vocabulaire diminuent dès lors que le corpus est lemmatisé. La lemmatisation des corpus pour un tel usage va donc peutêtre à l'encontre du but recherché.
Fichier principal
Vignette du fichier
jadt2008.pdf (630.69 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00385750 , version 1 (20-05-2009)

Identifiants

  • HAL Id : hal-00385750 , version 1

Citer

Benoît Lemaire. Limites de la lemmatisation pour l'extraction de significations. 9e Journées internationales d'Analyse Statistique des Données Textuelles, Mar 2008, Lyon, France. pp.725-732. ⟨hal-00385750⟩
822 Consultations
453 Téléchargements

Partager

Gmail Facebook X LinkedIn More