From models to data: understanding biodiversity patterns from environmental DNA data - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2017

From models to data: understanding biodiversity patterns from environmental DNA data

Des modèle aux données: comprendre la structure de la biodiversité à partir de l'ADN environnemental

Résumé

Integrative patterns of biodiversity, such as the distribution of taxa abundances and the spatial turnover of taxonomic composition, have been under scrutiny from ecologists for a long time, as they offer insight into the general rules governing the assembly of organisms into ecological communities. Thank to recent progress in high-throughput DNA sequencing, these patterns can now be measured in a fast and standardized fashion through the sequencing of DNA sampled from the environment (e.g. soil or water), instead of relying on tedious fieldwork and rare naturalist expertise. They can also be measured for the whole tree of life, including the vast and previously unexplored diversity of microorganisms. Taking full advantage of this new type of data is challenging however: DNA-based surveys are indirect, and suffer as such from many potential biases; they also produce large and complex datasets compared to classical censuses. The first goal of this thesis is to investigate how statistical tools and models classically used in ecology or coming from other fields can be adapted to DNA-based data so as to better understand the assembly of ecological communities. The second goal is to apply these approaches to soil DNA data from the Amazonian forest, the Earth’s most diverse land ecosystem. Two broad types of mechanisms are classically invoked to explain the assembly of ecological communities: ‘neutral’ processes, i.e. the random birth, death and dispersal of organisms, and ‘niche’ processes, i.e. the interaction of the organisms with their environment and with each other according to their phenotype. Disentangling the relative importance of these two types of mechanisms in shaping taxonomic composition is a key ecological question, with many implications from estimating global diversity to conservation issues. In the first chapter, this question is addressed across the tree of life by applying the classical analytic tools of community ecology to soil DNA samples collected from various forest plots in French Guiana. The second chapter focuses on the neutral aspect of community assembly. A mathematical model incorporating the key elements of neutral community assembly has been proposed by S.P. Hubbell in 2001, making it possible to infer quantitative measures of dispersal and of regional diversity from the local distribution of taxa abundances. In this chapter, the biases introduced when reconstructing the taxa abundance distribution from environmental DNA data are discussed, and their impact on the estimation of the dispersal and regional diversity parameters is quantified. The third chapter focuses on how non-random differences in taxonomic composition across a group of samples, resulting from various community assembly processes, can be efficiently detected, represented and interpreted. A method originally designed to model the different topics emerging from a set of text documents is applied here to soil DNA data sampled along a grid over a large forest plot in French Guiana. Spatial patterns of soil microorganism diversity are successfully captured, and related to fine variations in environmental conditions across the plot. Finally, the implications of the thesis findings are discussed. In particular, the potential of topic modelling for the modelling of DNA-based biodiversity data is stressed.
La distribution de l’abondance des espèces en un site, et la similarité de la composition taxonomique d’un site à l’autre, sont deux mesures de la biodiversité ayant servi de longue date de base empirique aux écologues pour tenter d’établir les règles générales gouvernant l’assemblage des communautés d’organismes. Pour ce type de mesures intégratives, le séquençage haut-débit d'ADN prélevé dans l'environnement (« ADN environnemental ») représente une alternative récente et prometteuse aux observations naturalistes traditionnelles. Cette approche présente l’avantage d’être rapide et standardisée, et donne accès à un large éventail de taxons microbiens jusqu’alors indétectables. Toutefois, ces jeux de données de grande taille à la structure complexe sont difficiles à analyser, et le caractère indirect des observations complique leur interprétation. Le premier objectif de cette thèse est d’identifier les modèles statistiques permettant d’exploiter ce nouveau type de données pour mieux comprendre l’assemblage des communautés. Le deuxième objectif est de tester les approches retenues sur des données de biodiversité du sol en forêt amazonienne, collectées en Guyane française. Deux grands types de processus sont invoqués pour expliquer l'assemblage des communautés d’organismes : les processus "neutres", indépendants de l’espèce considérée, que sont la naissance, la mort et la dispersion des organismes, et les processus liés à la niche écologique occupée par les organismes, c'est-à-dire les interactions avec l’environnement et entre organismes. Démêler l'importance relative de ces deux types de processus dans l’assemblage des communautés est une question fondamentale en écologie ayant de nombreuses implications, notamment pour l'estimation de la biodiversité et la conservation. Le premier chapitre aborde cette question à travers la comparaison d’échantillons d'ADN environnemental prélevés dans le sol de diverses parcelles forestières en Guyane française, via les outils classiques d’analyse statistique en écologie des communautés. Le deuxième chapitre se concentre sur les processus neutres d’assemblages des communautés. S.P. Hubbell a proposé en 2001 un modèle décrivant ces processus de façon probabiliste, et pouvant être utilisé pour quantifier la capacité de dispersion des organismes ainsi que leur diversité à l’échelle régionale simplement à partir de la distribution d’abondance des espèces observée en un site. Dans ce chapitre, les biais liés à l’utilisation de l’ADN environnemental pour reconstituer la distribution d’abondance des espèces sont discutés, et sont quantifiés au regard de l’estimation des paramètres de dispersion et de diversité régionale. Le troisième chapitre se concentre sur la manière dont les différences non-aléatoires de composition taxonomique entre sites échantillonnés, résultant des divers processus d’assemblage des communautés, peuvent être détectées, représentées et interprétés. Un modèle statistique conçu à l'origine pour classifier les documents à partir des thèmes qu’ils abordent est ici appliqué à des échantillons de sol prélevés selon une grille régulière au sein d’une grande parcelle forestière. La structure spatiale de la composition taxonomique des microorganismes est caractérisée avec succès et reliée aux variations fines des conditions environnementales au sein de la parcelle. Les implications des résultats de la thèse sont enfin discutées. L'accent est mis en particulier sur le potentiel des modèles thématique (« topic models ») pour la modélisation des données de biodiversité issues de l’ADN environnemental.
Fichier principal
Vignette du fichier
Thèse_GSommeria-Klein.pdf (32.03 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-01837049 , version 1 (12-07-2018)

Identifiants

  • HAL Id : tel-01837049 , version 1

Citer

Guilhem Sommeria-Klein. From models to data: understanding biodiversity patterns from environmental DNA data. Biodiversity and Ecology. Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier), 2017. English. ⟨NNT : ⟩. ⟨tel-01837049⟩
156 Consultations
26 Téléchargements

Partager

Gmail Facebook X LinkedIn More