Apprentissage d'un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles

Young-Min Kim; Jean-François Pessiot; Massih-Reza Amini; Patrick Gallinari

doi:10.3166/dn.13.1.63-82

Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2010

Apprentissage d'un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles

(1) , , (1) , (1)

Young-Min Kim

Fonction : Auteur
PersonId : 968165

Machine Learning and Information Retrieval

Jean-François Pessiot

Fonction : Auteur

Massih-Reza Amini

Fonction : Auteur
PersonId : 747054
IdHAL : massih-reza-amini
ORCID : 0000-0001-9032-4233
IdRef : 132277042

Machine Learning and Information Retrieval

Patrick Gallinari

Fonction : Auteur
PersonId : 751615
IdHAL : patrick-gallinari
ORCID : 0000-0001-9060-9001
IdRef : 070709076

Machine Learning and Information Retrieval

Résumé

Dans cet article nous proposons une technique à base d'apprentissage non supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l'hypothèse que les termes co-occurrant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d'abord regroupés avec une version classifiante de l'algorithme EM (CEM). Les documents sont ensuite représentés dans l'espace de ces groupes de termes. Nous généralisons cette approche en étendant l'algorithme PLSA pour un partitionnement simultané des termes et des documents. Nous montrons dans une dernière étape la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l'espace sac de mots initial et l'espace des groupes de mots induit par l'algorithme PLSA sur les trois collections de documents Reuters, 20newsgroups et WebKB.

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01172640

Soumis le : mardi 7 juillet 2015-15:59:57

Dernière modification le : jeudi 14 mars 2024-14:40:45

Dates et versions

hal-01172640 , version 1 (07-07-2015)

Identifiants

HAL Id : hal-01172640 , version 1
DOI : 10.3166/dn.13.1.63-82

Citer

Young-Min Kim, Jean-François Pessiot, Massih-Reza Amini, Patrick Gallinari. Apprentissage d'un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2010, 13 (1), pp.63-82. ⟨10.3166/dn.13.1.63-82⟩. ⟨hal-01172640⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

64 Consultations

0 Téléchargements

Apprentissage d'un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager