Méthodes d’apprentissage statistique pour des données longitudinales : une revue systématique

Perrine Soret; Marta Avalos

Résumé

Contexte: L’analyse de grands volumes de données ou données de grande dimension est devenue une problématique clé en recherche clinique (Thiébaut et collab., L’analyse des “Big Data” en recherche clinique, Rev Epidemiol Sante Publique, 2014). Des méthodes issues de l’apprentissage statistique ont été proposées dans ce domaine afin de faire face aux problèmes liés à la grande dimension, dans un premier temps, pour des observations indépendantes. Les études longitudinales, courantes en recherche clinique, permettent d’étudier l’évolution d’une réponse biologique ou clinique pour différents individus au cours du temps et l’influence des caractéristiques des sujets sur cette évolution. Lors de l’analyse des données longitudinales, la corrélation entre les mesures d’une caractéristique provenant d’un même sujet doit être prise en compte. L’objectif de cette étude est d’établir un état de l’art des méthodes prédictives, adaptées aux problèmes de la grande dimension, et tenant compte de la nature longitudinale des données via des modèles à effets mixtes. Méthode: Des critères de recherche ont été développés et trois bases de données bibliographiques ont été consultées: Medline (base en biologie et en médecine), MathSciNet (spécialisée en mathématiques) et Google Scholar (un outil de recherche plus généraliste, regroupant des articles scientifiques approuvés ou non par des comités de lecture, des thèses universitaires, des citations ou des livres scientifiques). De façon sommaire, un mot clé du thème “données longitudinales”, associé à un mot clé du thème “grande dimension” à l’aide de l’opérateur logique “et”, ont été recherchés dans le titre ou le résumé. Les articles ont été ensuite relus afin de vérifier leur pertinence et les inclure, le cas échéant, dans notre revue. Résultats: Au total 36 articles ont été répertoriés pour répondre à la problématique posée. 24 articles font référence aux modèles mixtes pénalisées par Lasso. Parmi eux, 14 proposent des algorithmes d’estimation et 10 sont des applications directes sur des données génomiques ou d’imagerie. Trois articles utilisent les arbres de régression ou forêts aléatoires, trois utilisent des séparateurs à vaste marge (SVM), deux appliquent des analyses en composantes principales (ACP), deux font appel à la régression par moindres carrés partiels (PLS) et deux proposent des méthodes bayésiennes. Au total, huit travaux ont fourni un code implémenté (R ou Matlab). Conclusion: Nous constatons un intérêt et un développement croissant des méthodes permettant de proposer des solutions aux problèmes liés à la grande dimension et à la nature longitudinale des données, de façon simultanée. Il reste à évaluer si les algorithmes proposés sont suffisamment efficaces et adaptés au contexte de la recherche clinique, fournissant par exemple, des résultats interprétables par les cliniciens.

Méthodes d’apprentissage statistique pour des données longitudinales : une revue systématique

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager