Space-efficient and exact de Bruijn graph representation based on a Bloom filter

Rayan Chikhi 1, 2, * Guillaume Rizk 3
* Auteur correspondant
2 GenScale - Scalable, Optimized and Parallel Algorithms for Genomics
IRISA-D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE, Inria Rennes – Bretagne Atlantique
Abstract : The de Bruijn graph data structure is widely used in next-generation sequencing (NGS). Many programs, e.g. de novo assemblers, rely on in-memory representation of this graph. However, current techniques for representing the de Bruijn graph of a human genome require a large amount of memory (> 30 GB). We propose a new encoding of the de Bruijn graph, which occupies an order of magnitude less space than current representations. The encoding is based on a Bloom filter, with an additional structure to remove critical false positives. An assembly software implementing this structure, Minia, performed a complete de novo assembly of human genome short reads using 5.7 Gb of memory in 23 hours.
Type de document :
Communication dans un congrès
WABI 2012, Sep 2012, Ljubljana, Slovenia. 7534, pp 236-248, 2012, 〈10.1007/978-3-642-33122-0_19〉
Liste complète des métadonnées

Littérature citée [20 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00753930
Contributeur : Rayan Chikhi <>
Soumis le : lundi 19 novembre 2012 - 22:53:47
Dernière modification le : mercredi 11 avril 2018 - 02:01:18
Document(s) archivé(s) le : jeudi 21 février 2013 - 11:46:11

Fichier

minia.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Citation

Rayan Chikhi, Guillaume Rizk. Space-efficient and exact de Bruijn graph representation based on a Bloom filter. WABI 2012, Sep 2012, Ljubljana, Slovenia. 7534, pp 236-248, 2012, 〈10.1007/978-3-642-33122-0_19〉. 〈hal-00753930〉

Partager

Métriques

Consultations de la notice

447

Téléchargements de fichiers

236