Assemblage de novo avec Spark
Résumé
Les récentes avancées en biologie moléculaire et l’avènement des méthodes de séquençage à haut débit ont rendu possible la lecture, l’analyse et la réutilisation d’une très grande partie de l’information présente dans le génome. Malheureusement, notre capacité à analyser l’immense masse de données générée par ces nouvelles technologies de séquençage est aujourd’hui limitée par nos moyens de calcul. Dans ces travaux, nous nous intéressons plus particulièrement aux problématiques de l’assemblage de novo, dont l’objectif est de reconstruire une séquence ADN à partir d’un ensemble de fragments issus de cette même séquence. Nous mettons en évidence les avantages d’utiliser les outils (notamment méthodologiques) de la communauté “big data” pour résoudre ce problème sur des instances réelles de très grande taille. Nous discutons des résultats numériques prometteurs que nous avons pu obtenir en implémentant cette approche à l’aide du framework Apache Spark.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...