Spatial Clustering of Linkage Disequilibrium blocks for Genome-Wide Association Studies

Résumé : Avec le développement récent des technologies de génotypage à haut débit, l'utilisation des études d'association pangénomiques (GWAS) est devenue très répandue dans la recherche génétique. Au moyen de criblage de grandes parties du génome, ces études visent à caractériser les facteurs génétiques impliqués dans le développement de maladies génétiques complexes. Les GWAS sont également basées sur l'existence de dépendances statistiques, appelées déséquilibre de liaison (DL), habituellement observées entre des loci qui sont proches dans l'ADN. Le DL est défini comme l'association non aléatoire d'allèles à des loci différents sur le même chromosome ou sur des chromosomes différents dans une population. Cette caractéristique biologique est d'une importance fondamentale dans les études d'association car elle permet la localisation précise des mutations causales en utilisant les marqueurs génétiques adjacents. Néanmoins, la structure de blocs complexe induite par le DL ainsi que le grand volume de données génétiques constituent les principaux enjeux soulevés par les études GWAS. Les contributions présentées dans ce manuscrit comportent un double aspect, à la fois méthodologique et algorithmique. Sur le plan méthodologie, nous proposons une approche en trois étapes qui tire profit de la structure de groupes induite par le DL afin d'identifier des variants communs qui pourraient avoir été manquées par l'analyse simple marqueur. Dans une première étape, nous effectuons une classification hiérarchique des SNPs avec une contrainte d'adjacence et en utilisant le DL comme mesure de similarité. Dans une seconde étape, nous appliquons une approche de sélection de modèle à la hiérarchie obtenue afin de définir des blocs de DL. Enfin, nous appliquons le modèle de régression Group Lasso sur les blocs de DL inférés. L'efficacité de l'approche proposée est comparée à celle des approches de régression standards sur des données simulées, semi-simulées et réelles de GWAS. Sur le plan algorithmique, nous nous concentrons sur l'algorithme de classification hiérarchique avec contrainte spatiale dont la complexité quadratique en temps n'est pas adaptée à la grande dimension des données GWAS. Ainsi, nous présentons, dans ce manuscrit, une mise en œuvre efficace d'un tel algorithme dans le contexte général de n'importe quelle mesure de similarité. En introduisant un paramètre $h$ défini par l'utilisateur et en utilisant la structure de tas-min, nous obtenons une complexité sous-quadratique en temps de l'algorithme de classification hiérarchie avec contrainte d'adjacence, ainsi qu'une complexité linéaire en mémoire en le nombre d'éléments à classer. L'intérêt de ce nouvel algorithme est illustré dans des applications GWAS.
Type de document :
Thèse
Statistics [stat]. Université d'Evry Val d'Essonne; Université Paris-Saclay; Laboratoire de Mathématiques et Modélisation d'Evry, 2015. English. 〈NNT : 2015SACLE013〉
Liste complète des métadonnées

Littérature citée [163 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01288568
Contributeur : Alia Dehman <>
Soumis le : mardi 15 mars 2016 - 12:21:30
Dernière modification le : samedi 18 février 2017 - 01:19:46

Fichier

Identifiants

  • HAL Id : tel-01288568, version 1

Collections

Citation

Alia Dehman. Spatial Clustering of Linkage Disequilibrium blocks for Genome-Wide Association Studies. Statistics [stat]. Université d'Evry Val d'Essonne; Université Paris-Saclay; Laboratoire de Mathématiques et Modélisation d'Evry, 2015. English. 〈NNT : 2015SACLE013〉. 〈tel-01288568〉

Partager

Métriques

Consultations de la notice

502

Téléchargements de fichiers

346