Données longitudinales en grande dimension : état des lieux des packages R - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Données longitudinales en grande dimension : état des lieux des packages R

Résumé

Les données longitudinales constituent un domaine important de la statistique. On entend par données longitudinales des données telles que, pour chaque individu considéré, on dispose d’observations à différents instants, autrement dit répétées dans le temps. Les principaux domaines d’application de ce type de données sont la médecine ou la biologie. On peut prendre comme exemple des données de séquençage pour rechercher l’efficacité d’un vaccin sur une maladie, des données d’imagerie au cours du temps pour rechercher la localisation d’un tumeur dans le cerveau, mais également des données sportives pour étudier la performance suivant les entrainements des athlètes. L’analyse de ces données longitudinales requiert des méthodes statistiques adaptées. En effet, les séries des données de chaque sujet sont supposées indépendantes les unes des autres, mais les données d’un même sujet sont vraisemblablement corrélées dans le temps. Les modèles à effets mixtes permettent de tenir compte de cette corrélation (Verbeke et Molenberghs, 2000). Ces modèles permettent d’expliquer la variabilité d’une suite d’observations par deux types d’effets : les effets fixes de population et les effets individuels, considérés comme aléatoires puisqu’ils varient d’un individu à l’autre. Quand le nombre d’observations est faible par rapport au nombre d’effets fixes, les modèles mixtes classiques présentent des limites. Nous présentons ici une revue des méthodes prédictives issues du champ de l’apprentissage statistique (ou machine learning) qui ont été proposées dans la littérature permettant de tenir compte de la nature dépendante des données longitudinales par des adaptations des modèles à effets mixtes. Nous effectuons également une revue et une évaluation des différents packages R implémentant ces méthodes. Nous étudions leurs capacités et leurs limites.
Fichier non déposé

Dates et versions

hal-01099337 , version 1 (02-01-2015)

Identifiants

  • HAL Id : hal-01099337 , version 1

Citer

Perrine Soret, Marta Avalos. Données longitudinales en grande dimension : état des lieux des packages R. Troisièmes rencontres R, Jun 2014, Montpellier, France. ⟨hal-01099337⟩

Collections

INRIA INRIA2
97 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More