Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d'allélotypage - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Journal de la Société Française de Statistique Année : 2010

Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d'allélotypage

Résumé

Résumé : Un microsatellite est une séquence non-codante de l'ADN. L'allélotypage consiste à rechercher le statut normal ou altéré d'un ensemble prédéfini de microsatellites, en général dans une cellule cancéreuse. Les données d'allélotypage rassemblent donc une série de variables binaires décrivant l'état global des chromosomes de la cellule. Ces données sont généralement utilisées pour expliquer une caractéristique, elle aussi qualitative binaire, du sujet ou de la tumeur. Les données d'allélotypage sont caractérisées par un nombre de variables (microsatellites) pouvant dépasser le nombre de sujets et par la présence éventuelle de colinéarité entre les microsatellites. La compréhension des mécanismes de cancérogenèse implique également une description multivariée des données. Le traitement statistique de ces données suggère donc l'utilisation de la régression PLS. Les variantes PLS des régressions linéaire et logistique ne font pas d'hypothèses sur le type de données pouvant être analysées. Nous trouvons dans la littérature l'utilisation sur des variables toutes qualitatives de modèles prévus a priori pour des données quantitatives. L'absence d'hypothèse sur les données impliquent par ailleurs une validation des modèles par des méthodes de type validation-croisée ou bootstrap. Nous comparons ici les performances des variantes PLS des régressions linéaire et logistique sur des données toutes qualitatives. Abstract : A microsatellite is a non-coding DNA sequence. Allelotyping consists in establishing the normal or altered status of a set of predefined microsatellites, generaly in a tumor cell. Allelotyping data thus gather a series of binary variables that describes the global state of the cell chromosomes. These binary data are generaly used to explain a characteristic, binary also, of the subject or of the tumor. Allelotyping data are characterised by their number of variables (microsatellites) being sometimes larger than the number of subjects and by the possible collinearity of two microsatellites. The understanding of cancerogenesis mechanisms implies also a multivariate description of the data. The statistical processing of these data thus suggest using PLS regression. PLS variants of linear and logistic regression make no assumptions on the type of data on which the model can be run. In the literature, models theoretically devised for continuous data are sometimes used on binary data. The absence of assumption on data implies that the models be validated using either a bootstrap or a cross-validation method. We compare here the performances of linear and logistic regression on qualitative data.

Mots clés

Fichier non déposé

Dates et versions

hal-00489251 , version 1 (04-06-2010)

Identifiants

  • HAL Id : hal-00489251 , version 1

Citer

Nicolas Meyer, Myriam Maumy, Frédéric Bertrand. Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d'allélotypage. Journal de la Société Française de Statistique, 2010, 151 (2), pp.1-18. ⟨hal-00489251⟩
171 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More