Application du coclustering à l'analyse exploratoire d'une table de données - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Application du coclustering à l'analyse exploratoire d'une table de données

Résumé

The cross-classification method is an unsupervised analysis technique that extracts the existing underlying structure between individuals and the variables in a data table as homogeneous blocks. This technique is limited to variables of the same type, either numerical or categorical, and we propose to extend it by proposing a two-step methodology. In the first step, all the variables are binarized according to a number of bins chosen by the analyst, by discretization in equal frequency in the numerical case, or keeping the most frequent values in the categorical case. The second step applies a coclustering method between the individuals and the binary variables, leading to groups of individual and groups of variable parts. We apply this methodology on several data sets and compare with the results of a multiple correspondence analysis MCA applied to the same data.
La classification croisée est une technique d'analyse non supervisée qui permet d'extraire la structure sous-jacente existante entre les individus et les variables d'une table de données sous forme de blocs homogènes. Cette technique se limitant aux variables de même nature, soit numériques soit catégo-rielles, nous proposons de l'étendre en proposant une méthodologie en deux étapes. Lors de la première étape, toutes les variables sont binarisées selon un nombre de parties choisi par l'analyste, par discrétisation en fréquences égales dans le cas numérique ou en gardant les valeurs les plus fréquentes dans le cas catégoriel. La deuxième étape consiste à utiliser une méthode de coclustering entre individus et variables binaires, conduisant à des regroupements d'indivi-dus d'une part, et de parties de variables d'autre part. Nous appliquons cette méthodologie sur plusieurs jeux de donnée en la comparant aux résultats d'une analyse par correspondances multiples ACM, appliquée aux même données bi-narisées.
Fichier principal
Vignette du fichier
boucharebboulleetal2017application-coclustering.pdf (323.03 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01469509 , version 1 (16-02-2017)

Licence

Paternité - Partage selon les Conditions Initiales

Identifiants

  • HAL Id : hal-01469509 , version 1

Citer

Aichetou Bouchareb, Marc Boullé, Fabrice Clérot, Fabrice Rossi. Application du coclustering à l'analyse exploratoire d'une table de données. Conférence Internationale Francophone sur l'Extraction et gestion des connaissances (EGC 2017), Jan 2017, Grenoble, France. pp.177-188. ⟨hal-01469509⟩
181 Consultations
302 Téléchargements

Partager

Gmail Facebook X LinkedIn More