High Dimensional Classification with combined Adaptive Sparse PLS and Logistic Regression - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Bioinformatics Année : 2018

High Dimensional Classification with combined Adaptive Sparse PLS and Logistic Regression

Résumé

Motivation: The high dimensionality of genomic data calls for the development of specific classification methodologies, especially to prevent over-optimistic predictions. This challenge can be tackled by compression and variable selection, which combined constitute a powerful framework for classification, as well as data visualization and interpretation. However, current proposed combinations lead to unstable and non convergent methods due to inappropriate computational frameworks. We hereby propose a computationally stable and convergent approach for classification in high dimensional based on sparse Partial Least Squares (sparse PLS). Results: We start by proposing a new solution for the sparse PLS problem that is based on proximal operators for the case of univariate responses. Then we develop an adaptive version of the sparse PLS for classification, called logit-SPLS, which combines iterative optimization of logistic regression and sparse PLS to ensure computational convergence and stability. Our results are confirmed on synthetic and experimental data. In particular we show how crucial convergence and stability can be when cross-validation is involved for calibration purposes. Using gene expression data we explore the prediction of breast cancer relapse. We also propose a multicategorial version of our method, used to predict cell-types based on single-cell expression data.Availability: Our approach is implemented in the plsgenomics R-package.
Fichier principal
Vignette du fichier
article_logit_spls_2017.pdf (1.17 Mo) Télécharger le fichier
Fig1.pdf (10.43 Ko) Télécharger le fichier
Fig2.pdf (52.3 Ko) Télécharger le fichier
Fig3.pdf (410.55 Ko) Télécharger le fichier
Fig4.pdf (286.87 Ko) Télécharger le fichier
overlap_genes_stab_sel.pdf (28.58 Ko) Télécharger le fichier
simulations_choice_K.pdf (13.47 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01587360 , version 1 (14-09-2017)

Identifiants

Citer

Ghislain Durif, Laurent Modolo, Jakob Michaelsson, Jeff E. Mold, Sophie Lambert-Lacroix, et al.. High Dimensional Classification with combined Adaptive Sparse PLS and Logistic Regression. Bioinformatics, 2018, 34 (3), pp.485-493. ⟨10.1093/bioinformatics/btx571⟩. ⟨hal-01587360⟩
2014 Consultations
894 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More