Skip to Main content Skip to Navigation
Conference papers

Limites de la lemmatisation pour l'extraction de significations

Benoît Lemaire 1, *
* Corresponding author
Résumé : La lemmatisation des corpus est une procédure répandue que l'on effectue parfois par simple respect d'une tradition. Cet article met en évidence les limites de cette opération dans le cas de l'extraction automatique d'informations sémantiques, c'estàdire lorsque le contexte d'apparition des mots est utilisé. Nous montrons dans une première partie que les contextes des formes plurielles et singulières de 58 mots dans un vaste corpus diffèrent significativement, ce qui laisse penser que remplacer les uns par les autres peut affecter les performances des systèmes d'extraction de significations. Dans une second partie, nous recourons à l'analyse de la sémantique latente (LSA) pour montrer d'une autre manière que les contextes des deux formes ne sont pas les mêmes et que les performances du système sur un test de vocabulaire diminuent dès lors que le corpus est lemmatisé. La lemmatisation des corpus pour un tel usage va donc peutêtre à l'encontre du but recherché.
Document type :
Conference papers
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00385750
Contributor : Benoît Lemaire <>
Submitted on : Wednesday, May 20, 2009 - 9:29:06 AM
Last modification on : Friday, November 20, 2020 - 2:54:16 PM
Long-term archiving on: : Thursday, June 10, 2010 - 11:28:14 PM

File

jadt2008.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00385750, version 1

Collections

Citation

Benoît Lemaire. Limites de la lemmatisation pour l'extraction de significations. 9e Journées internationales d'Analyse Statistique des Données Textuelles, Mar 2008, Lyon, France. pp.725-732. ⟨hal-00385750⟩

Share

Metrics

Record views

372

Files downloads

412