Co-clustering de données textuelles et continues

Margot Selosse 1 Julien Jacques 2 Christophe Biernacki 3
3 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille - École polytechnique universitaire de Lille, Université de Lille, Sciences et Technologies
Résumé : Le clustering est un outil essentiel pour l’analyse de données. C’est une manière de résumer un jeu de données en formant des groupes homogènes d’observations (les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables, conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveau tel que les techniques de clustering ne sont plus toujours adaptées pour discerner des structures. En effet, l’analyse d’un cluster repose généralement sur un représentant de ce cluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grand nombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. De cette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupement en clusters peut permettre, de façon symmétrique au regroupement classique des individus en clusters. Le co-clustering est alors une méthode candidate car elle réalise un clustering simultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, et notamment le clustering de document, le co-clustering est un thème largement étudié lors de ces dernières années. Cependant, la plupart des approches ne permettent pas de prendre en compte, en plus des données textuelles, d’autres variables. Le travail présenté propose une extension du modèle des blocs latents pour des jeux de données avec des variables textuelles et continues.
Document type :
Conference papers
Complete list of metadatas

Cited literature [4 references]  Display  Hide  Download

https://hal.inria.fr/hal-01797493
Contributor : Margot Selosse <>
Submitted on : Tuesday, May 22, 2018 - 4:06:58 PM
Last modification on : Thursday, February 21, 2019 - 10:34:08 AM
Long-term archiving on : Monday, September 24, 2018 - 2:31:24 PM

File

sfds.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01797493, version 1

Citation

Margot Selosse, Julien Jacques, Christophe Biernacki. Co-clustering de données textuelles et continues. SFdS 2018 - 50èmes Journées de Statistique, May 2018, Saclay, France. ⟨hal-01797493⟩

Share

Metrics

Record views

159

Files downloads

214