Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse

Résumé : Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'e��tude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'ACI Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e.g., la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e.g., le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post-traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des QSGs ("quasi synexpression groups"). Nous avons également travaillé à l'exploitation de sources de données externes (typiquement des sources comme Gene Ontology ou encore des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de QSGs extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses.
Type de document :
Pré-publication, Document de travail
3298; T. 2007
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01465852
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : lundi 13 février 2017 - 10:55:10
Dernière modification le : vendredi 10 novembre 2017 - 01:20:23

Identifiants

  • HAL Id : hal-01465852, version 1

Collections

Citation

Sylvain Blachon. Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse. 3298; T. 2007. 〈hal-01465852〉

Partager

Métriques

Consultations de la notice

68