The SgenoLasso and its cousins for selective genotyping and extreme sampling: application to association studies and genomic selection - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Statistics Année : 2021

The SgenoLasso and its cousins for selective genotyping and extreme sampling: application to association studies and genomic selection

Résumé

We introduce a new variable selection method, called SgLasso, that handles extreme data, and suitable when the correlation between regressors is known. It is appropriate in genomics since once the genetic map has been built, the correlation is perfectly known. Besides, we prove that the signal to noise ratio is largely increased by considering the extremes. Our method relies on the construction of a specific statistical test, a transformation of the data and by the knowledge of the correlation between regressors. This new technique is inspired by stochastic processes arising from statistical genetics. Our approach and existing methods are compared for simulated and real data, and the results point to the validity of our approach.
Nous introduisons une nouvelle méthode de selection de variables, nommée SgLasso, qui prend en compte les données extrêmes. Notre méthode est basée sur la construction d'un test statistique spécifique, une transformation des données et par la connaissance de la corrélation entre régresseurs. Cela s'avère approprié en génomique car une fois la carte génétique construite, cette corrélation est parfaitement connue. Cette nouvelle technique est inspirée des processus stochastiques en provenance de la statistique génétique. Nous prouvons que le rapport signal bruit est largement augmenté en considérant les extrêmes. Notre approche ainsi que les méthodes existantes sont comparées sur données simulées et réelles. Ceci valide notre nouvelle approche.
Fichier principal
Vignette du fichier
SgLassoRabierDelmasFinalForHalWithSuppMat.pdf (1.72 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02123295 , version 1 (07-05-2019)
hal-02123295 , version 2 (24-10-2019)
hal-02123295 , version 3 (21-10-2020)
hal-02123295 , version 4 (10-01-2021)
hal-02123295 , version 5 (10-11-2021)

Identifiants

Citer

Charles-Elie Rabier, Céline Delmas. The SgenoLasso and its cousins for selective genotyping and extreme sampling: application to association studies and genomic selection. Statistics, 2021, 55 (1), pp.18-44. ⟨10.1080/02331888.2021.1881785⟩. ⟨hal-02123295v4⟩
952 Consultations
147 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More