Données longitudinales en grande dimension : état des lieux des packages R

Perrine Soret 1, 2 Marta Avalos 1, 2
1 SISTM - Statistics In System biology and Translational Medicine
Epidémiologie et Biostatistique [Bordeaux], Inria Bordeaux - Sud-Ouest
Abstract : Les données longitudinales constituent un domaine important de la statistique. On entend par données longitudinales des données telles que, pour chaque individu considéré, on dispose d’observations à différents instants, autrement dit répétées dans le temps. Les principaux domaines d’application de ce type de données sont la médecine ou la biologie. On peut prendre comme exemple des données de séquençage pour rechercher l’efficacité d’un vaccin sur une maladie, des données d’imagerie au cours du temps pour rechercher la localisation d’un tumeur dans le cerveau, mais également des données sportives pour étudier la performance suivant les entrainements des athlètes. L’analyse de ces données longitudinales requiert des méthodes statistiques adaptées. En effet, les séries des données de chaque sujet sont supposées indépendantes les unes des autres, mais les données d’un même sujet sont vraisemblablement corrélées dans le temps. Les modèles à effets mixtes permettent de tenir compte de cette corrélation (Verbeke et Molenberghs, 2000). Ces modèles permettent d’expliquer la variabilité d’une suite d’observations par deux types d’effets : les effets fixes de population et les effets individuels, considérés comme aléatoires puisqu’ils varient d’un individu à l’autre. Quand le nombre d’observations est faible par rapport au nombre d’effets fixes, les modèles mixtes classiques présentent des limites. Nous présentons ici une revue des méthodes prédictives issues du champ de l’apprentissage statistique (ou machine learning) qui ont été proposées dans la littérature permettant de tenir compte de la nature dépendante des données longitudinales par des adaptations des modèles à effets mixtes. Nous effectuons également une revue et une évaluation des différents packages R implémentant ces méthodes. Nous étudions leurs capacités et leurs limites.
Document type :
Conference papers
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01099337
Contributor : Marta Avalos <>
Submitted on : Friday, January 2, 2015 - 8:19:09 PM
Last modification on : Tuesday, September 18, 2018 - 4:24:01 PM

Identifiers

  • HAL Id : hal-01099337, version 1

Collections

Citation

Perrine Soret, Marta Avalos. Données longitudinales en grande dimension : état des lieux des packages R. Troisièmes rencontres R, Jun 2014, Montpellier, France. ⟨hal-01099337⟩

Share

Metrics

Record views

111