Stabilité de la sélection de variables pour la classification de données en grande dimension

Emeline Perthame 1, * Chloé Friguet 2 David Causeur 1
* Auteur correspondant
2 LMBA_UBS
LMBA - Laboratoire de Mathématiques de Bretagne Atlantique
Résumé : Les données à haut-débit ont motivé le développement de méthodes statistiques pour la sélection de variables. Ces données sont caractérisées par leur grande dimension et par leur hétérogénéité car le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches habituelles sont ainsi remises en question car elles peuvent conduire à des décisions erronées. Efron (2007), Leek and Storey (2007, 2008), Friguet et al (2009) montrent l'impact négatif de l'hétérogénéité des données sur le nombre de faux-positifs des tests multiples. La sélection de variables est une étape importante de la construction d'un modèle de classification en grande dimension car elle réduit la dimension du problème aux variables les plus prédictives. On s'intéresse ici aux performances de classification de la sélection de variables, via la procédure LASSO (Tibshirani (1996)) et à la reproductibilité des ensembles de variables sélectionnés. Des simulations montrent que l'ensemble des variables sélectionnées par le LASSO n'est pas celui des meilleurs prédicteurs théoriques. Aussi, d'intéressantes performances de classification ne sont atteintes que pour un grand nombre de variables sélectionnées. Notre méthode s'appuie sur la description de la dépendance entre covariables grâce à un petit nombre de variables latentes (Friguet et al. (2009)). La stratégie proposée consiste à appliquer les procédures sur les données conditionnellement à cette structure de dépendance. Cette stratégie permet de stabiliser les variables sélectionnées : d'intéressantes performances de classification sont atteintes pour de plus petits ensembles de variables et les variables les plus prédictives sont détectées.
Type de document :
Communication dans un congrès
45 èmes Journées de Statistique, May 2013, Toulouse, France. 2013
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00913047
Contributeur : Chloé Friguet <>
Soumis le : mardi 3 décembre 2013 - 10:45:04
Dernière modification le : vendredi 24 février 2017 - 01:13:09
Document(s) archivé(s) le : lundi 3 mars 2014 - 22:36:02

Fichier

Perthame_Friguet_Causeur_JDS20...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00913047, version 1

Citation

Emeline Perthame, Chloé Friguet, David Causeur. Stabilité de la sélection de variables pour la classification de données en grande dimension. 45 èmes Journées de Statistique, May 2013, Toulouse, France. 2013. <hal-00913047>

Partager

Métriques

Consultations de
la notice

446

Téléchargements du document

103