A geometric view of Biodiversity: scaling to metagenomics

Résumé : Nous avons conçu un algorithme de réduction de la dimension pour explorer de nouvelles voies pour une caractérisation précise de la biodiversité, ici par une approche géométrique, qui satisfait aux critères de passage à l'échelle pour les jeux de données produits par NGS (actuellement $\sim 10^5$ reads). Cette aproche est basée sur la technique dite "Multidimensional Scaling", qui permet de projeter les éléments à étudier sur un ensemble de n points dans un espace euclidien de faible dimension, connaissant leurs distances respectives. Nous avons calculé toutes les distances deux à deux entre reads d'un échantillon environnemental, réalisé une MDS du tableau de distances, et analysé les projections sur les premiers axes par des techniques de visualisation. Nous avons abordé la question de la complexité quadratique du calcul des distances deux à deux en réalisant les calculs dans un Centre National disposant d'une machine hyperparallèle (Turing, une IBM BLue Gene Q), et la complexité cubique de la décomposition spectrale dans la MDS en utilisant un algorithme de projection aléatoire dense. Nous avons appliqué cette procédure à un jeu de $\sim 10^5$ reads d'un échantillon environnemental de diatomées du lac Léman. L'analyse de la forme du nuage de points obtenu ouvre la voie vers une analyse géométrique de la biodiversité, et une construction rigoureuse d'OTUs (Operational Taxonomic Units) lorsque le jeu de données est trop grand pour mettre en oeuvre les méthodes de classiffcation ascendante hiérarchique, non supervisée.
Type de document :
Rapport
[Research Report] RR-9144, INRIA; INRA. 2018, pp.1-16
Liste complète des métadonnées

Littérature citée [46 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01685711
Contributeur : Alain Franc <>
Soumis le : mardi 23 janvier 2018 - 15:01:44
Dernière modification le : mercredi 4 avril 2018 - 01:24:20
Document(s) archivé(s) le : jeudi 24 mai 2018 - 10:49:09

Fichiers

RR-9144.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01685711, version 2
  • ARXIV : 1803.02272

Citation

Pierre Blanchard, Philippe Chaumeil, Jean-Marc Frigerio, Frédéric Rimet, Franck Salin, et al.. A geometric view of Biodiversity: scaling to metagenomics. [Research Report] RR-9144, INRIA; INRA. 2018, pp.1-16. 〈hal-01685711v2〉

Partager

Métriques

Consultations de la notice

400

Téléchargements de fichiers

111