Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse

Résumé : L'Analyse en Composantes Principales pour des donn ees quantitatives, et l'Analyse des Correspondances Multiples pour des donn ees qualitatives, sont des techniques de r eduction de dimension bien connues. Cependant, les composantes obtenues a l'issue de ces m ethodes sont des combinaisons de toutes les variables de d epart, ce qui rend l'interpr etation des r esultats di cile pour des donn ees de grande dimension. Pour pallier ces di cult es, nous proposons deux nouvelles m ethodes de s election de groupes de variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis" et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de Shen et Huang pour des donn ees structur ees par bloc. Elle utilise les liens entre l'ACP et la d ecomposition en valeurs singuli eres, a n d'extraire les composantes en r esolvant un probl eme d'approximation de matrice de rang inf erieur. Une contrainte de type "Group Lasso" est introduite dans ce probl eme de minimisation a n d'obtenir des composantes etant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe sont mis a z ero permettant de r eduire le nombre de variables s electionn ees. La s election ne sera pas globale mais propre a chaque composante. Puisque l'ACM est un cas particulier de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est d e nie comme une extension de la GSPCA. Une application de cette m ethode sera pr esent ee sur un jeu de donn ees bien connu comportant 27 races de chiens, d ecrites par 6 variables qualitatives.
Document type :
Conference papers
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01126256
Contributor : Laboratoire Cedric <>
Submitted on : Friday, March 6, 2015 - 11:47:52 AM
Last modification on : Saturday, February 9, 2019 - 1:24:51 AM

Identifiers

  • HAL Id : hal-01126256, version 1

Collections

Citation

Anne Bernard, Gilbert Saporta. Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse. 45 ?mes Journ?es de statistique, May 2013, Toulouse, France. ⟨hal-01126256⟩

Share

Metrics

Record views

292