Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre

Résumé : Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le contexte épidémiologique. L'un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données collectées. Ces prétraitements consistent entre autres à recoder certaines variables en classe et à choisir manuellement certaines interactions en se basant sur la connaissance des données. L'approche proposée utilise toutes les variables explicatives sans traitement et génère automatiquement toutes les interactions entre les variables, ce qui nous conduit en grande dimension. Nous utilisons le Lasso qui est une méthode robuste de sélection de variables en grande dimension. Le nombre d'observations dans les études épidémiologiques étant faible, nous proposons une validation croisée à deux niveaux pour éviter le risque de sur apprentissage dans la phase de sélection de variables. Les estimateurs Lasso étant biaisés et la variable d'intérêt qu'est le nombre d'anophèles à prédire étant discret, nous utilisons un modèle GLM pour débiaiser les variables sélectionnées par le Lasso et faire de la prédiction. Les résultats montrent que quelques variables climatiques et environnementales seulement sont des facteurs principaux liés au risque d'exposition au paludisme.
Type de document :
Communication dans un congrès
47èmes Journées de Statistique de la SFdS, Jun 2015, Lille, France. 2015
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01196450
Contributeur : Fabrice Rossi <>
Soumis le : mercredi 9 septembre 2015 - 17:52:02
Dernière modification le : jeudi 10 septembre 2015 - 01:07:25
Document(s) archivé(s) le : lundi 28 décembre 2015 - 23:23:51

Fichiers

kouwayefontonetal2015jds.pdf
Fichiers produits par l'(les) auteur(s)

Licence


Distributed under a Creative Commons Paternité 4.0 International License

Identifiants

  • HAL Id : hal-01196450, version 1
  • ARXIV : 1509.02873

Collections

Citation

Bienvenue Kouwayè, Noël Fonton, Fabrice Rossi. Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre. 47èmes Journées de Statistique de la SFdS, Jun 2015, Lille, France. 2015. <hal-01196450>

Partager

Métriques

Consultations de
la notice

108

Téléchargements du document

110