Skip to Main content Skip to Navigation
Conference papers

Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse

Résumé : L'Analyse en Composantes Principales pour des donn ees quantitatives, et l'Analyse des Correspondances Multiples pour des donn ees qualitatives, sont des techniques de r eduction de dimension bien connues. Cependant, les composantes obtenues a l'issue de ces m ethodes sont des combinaisons de toutes les variables de d epart, ce qui rend l'interprétation des résultats difficile pour des données de grande dimension. Pour pallier ces difficultés, nous proposons deux nouvelles méthodes de sélection de groupes de variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis" et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de Shen et Huang pour des données structurées par bloc. Elle utilise les liens entre l'ACP et la décomposition en valeurs singulières, afin d'extraire les composantes en résolvant un problème d'approximation de matrice de rang inférieur. Une contrainte de type "Group Lasso" est introduite dans ce problème de minimisation afin d'obtenir des composantes étant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe sont mis à zéro permettant de réduire le nombre de variables sélectionnées. La sélection ne sera pas globale mais propre à chaque composante. Puisque l'ACM est un cas particulier de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est dénié comme une extension de la GSPCA. Une application de cette méthode sera présentée sur un jeu de données bien connu comportant 27 races de chiens, décrites par 6 variables qualitatives.
Complete list of metadatas

Cited literature [6 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01126256
Contributor : Laboratoire Cedric <>
Submitted on : Sunday, March 22, 2020 - 4:47:19 PM
Last modification on : Tuesday, March 24, 2020 - 11:00:09 AM

File

art_2754.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01126256, version 1

Collections

Citation

Anne Bernard, Gilbert Saporta. Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse. 45 émes Journées de statistique, May 2013, Toulouse, France. ⟨hal-01126256⟩

Share

Metrics

Record views

355

Files downloads

16