Model-based covariable decorrelation in linear regression (CorReg). Application to missing data and to steel industry

Clément Théry 1, 2
2 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Résumé : corrélations au sein des bases de données, particulièrement fréquentes dans le cadre industriel. Une modélisation explicite des corrélations par un système de sous-régressions entre covariables permet de pointer les sources des corrélations et d’isoler certaines variables redondantes. Il en découle une pré-sélection de variables nettement moins corrélées sans perte significative d’information et avec un fort potentiel explicatif (la pré-selection elle-même est expliquée par la structure de sous-régression qui est simple à comprendre car uniquement constituée de modèles linéaires). Un algorithme de recherche de structure de sous-régressions est proposé, basé sur un modèle génératif complet sur les données et utilisant une chaîne MCMC (Monte- Carlo Markov Chain). Ce prétraitement est utilisé pour la régression linéaire comme une présélection des variables explicatives à des fins illustratives mais ne dépend pas de la variable réponse. Il peut donc être utilisé de manière générale pour toute problématique de corrélations. Par la suite, un estimateur plug-in pour la régression linéaire est proposé pour réinjecter l’information résiduelle contenue dans les variables redondantes de manière séquentielle. On utilise ainsi toutes les variables sans souffrir des corrélations entre covariables. Enfin, le modèle génératif complet offre la perspective de pouvoir être utilisé pour gérer d’éventuelles valeurs manquantes dans les données. Cela permet la recherche de structure malgré l’absence de certaines données. Mais un autre débouché est l’imputation multiple des données manquantes, préalable à l’utilisation de méthodes classiques incompatibles avec la présence de valeurs manquantes. De plus, l’imputation multiple des valeurs manquantes permet d’obtenir un estimateur de la variance des valeurs imputées. Encore une fois, la régression linéaire vient illustrer l’apport de la méthode qui reste cependant générique et pourrait être appliquée à d’autres contextes tels que le clustering. Tout au long de ces travaux, l’accent est mis principalement sur l’interprétabilité des résultats en raison du caractère industriel de cette thèse. Le package R intitulé CorReg, disponible sur le cran sous licence CeCILL, implémente les méthodes développées durant cette thèse.
Type de document :
Thèse
Methodology [stat.ME]. Université Lille 1, 2015. English
Liste complète des métadonnées

Littérature citée [95 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01249789
Contributeur : Christophe Biernacki <>
Soumis le : lundi 4 janvier 2016 - 15:42:50
Dernière modification le : mercredi 6 janvier 2016 - 01:05:52
Document(s) archivé(s) le : vendredi 15 avril 2016 - 15:30:36

Identifiants

  • HAL Id : tel-01249789, version 1

Collections

Citation

Clément Théry. Model-based covariable decorrelation in linear regression (CorReg). Application to missing data and to steel industry. Methodology [stat.ME]. Université Lille 1, 2015. English. 〈tel-01249789〉

Partager

Métriques

Consultations de la notice

159

Téléchargements de fichiers

284