Contribution à la sélection de modèle via pénalisation Lasso en Épidémiologie

Abstract : Mes travaux portent principalement sur le développement, l’adaptation, l’implémentation et l’application de méthodes statistiques de sélection de modèle. Ma principale contribution consiste à adapter des méthodes de l'apprentissage statistique supervisé qui sont devenues très populaires lors de la dernière décennie, les régressions pénalisées de type Lasso, à l'analyse de données issues d'études épidémiologiques. L'enjeu est de s'attaquer aux problèmes des données volumineuses (\textit{Big Data}) tout en respectant les objectifs et spécificités de la discipline. Le volume important se réfère ici au fait que le nombre d'observations et/ou le nombre de variables est bien plus important que celui qui était classique dans le domaine, sans exclure le cas où le nombre de variables est supérieur au nombre d'observations (données de grande dimension). Le contexte de la pratique épidémiologique est en plein changement avec les évolutions technologiques et la conséquente disponibilité croissante des Big Data. Le Système National des Données de Santé (SNDS), regroupant les principales bases de données de santé publique existantes en France, constitue un exemple de Big Data en santé. Le données ``omiques'' (génomiques, transcriptomiques, protéomiques, métabolomiques, microbiomiques, mycobiomiques, viromiques,$\ldots$) issues des avancées des techniques de séquençage à haut débit constituent un autre exemple de Big Data en santé. Enfin, les mesures de l'\textit{exposome} (par opposition aux facteurs génétiques), qui désigne en épidémiologie l’ensemble des expositions environnementales que subit un individu au long de sa vie peut également constituer une source de Big Data. Ce document s'articule autour de trois chapitres. Il résume mon activité de recherche depuis 2005, soit depuis mon recrutement à l’Université de Bordeaux après ma thèse. Le premier chapitre est une introduction générale dans laquelle je contextualise, motive et énonce la problématique abordée tout au long de mes recherches. Le deuxième chapitre est consacré à mes travaux en lien avec les études sur les traumatismes accidentels et expositions médicamenteuses à partir des données du SNDS. Le troisième chapitre est consacré à mes travaux en lien avec des études biomédicales: la prédiction de la charge virale censurée par un seuil de détection à partir des mutations du VIH, d'une part, et l'automatisation de la détection des seuils d'anomalie des hémogrammes en population générale, d'autre part.
Liste complète des métadonnées

Cited literature [20 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/tel-01964508
Contributor : Marta Avalos <>
Submitted on : Saturday, December 22, 2018 - 12:58:05 PM
Last modification on : Friday, February 1, 2019 - 5:31:43 PM
Document(s) archivé(s) le : Saturday, March 23, 2019 - 12:31:40 PM

File

HDR_Marta.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01964508, version 1

Collections

Citation

Marta Avalos Fernandez. Contribution à la sélection de modèle via pénalisation Lasso en Épidémiologie. Machine Learning [stat.ML]. Université de Bordeaux, 2018. ⟨tel-01964508⟩

Share

Metrics

Record views

249

Files downloads

116