Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles

Résumé : Dans cet article nous proposons une technique à base d’apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypothèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec l’algorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite représentés dans l’espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l’espace sac-de-mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur deux collections standard de WebKB et de Reuters.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01301561
Contributor : Lip6 Publications <>
Submitted on : Tuesday, April 12, 2016 - 2:31:19 PM
Last modification on : Thursday, March 21, 2019 - 1:09:10 PM

Identifiers

  • HAL Id : hal-01301561, version 1

Citation

Young-Min Kim, Jean-François Pessiot, Massih-Reza Amini, Patrick Gallinari. Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles. COnférence en Recherche d'Information et Applications (CORIA 2008), Mar 2008, Trégastel, France. pp.119-134. ⟨hal-01301561⟩

Share

Metrics

Record views

171