SNP4OrphanSpecies: A bio-informatic pipeline to isolate robust molecular markers for phylogeny, phylogeographical and population genetic studies of genetically orphan species - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2021

SNP4OrphanSpecies: A bio-informatic pipeline to isolate robust molecular markers for phylogeny, phylogeographical and population genetic studies of genetically orphan species

SNP4OrphanSpecies: Une chaîne d'analyse bio-informatique pour isoler des marqueurs moléculaires robustes pour des études de phylogénie, phylogéographie et de génétique des populations chez des espèces génétiquement orphelines

Résumé

Since several decades, an increase of disease or pest emergence due to introduction or environmental changes has been recorded, causing serious threats to ecosystems. Many of these events are associated to species having poor or no genomic resources (ie. genetically orphan species). This lack of resource is a serious limitation to understand the origin of emergent populations and to predict future consequences on ecosystems. Analysing population genetic diversity is an efficient method to rapidly obtain this information, but required to have available polymorphic genetic markers. We developed a generic bio-informatic pipeline to rapidly isolate these markers in the goal to be applied in numerous different invasive taxa, with a special focus on fungal pathogen and insect pests. This pipeline is based on a quick de-novo assembly genome obtained from a shotgun whole genome sequencing, using paired-end Illumina technology, and the isolation of single copy genes conserved in the related species of the emergent organisms. Previous studies have shown that intronic regions of these conserved genes generally contain several single nucleotide polymorphisms at the species level. The pipeline was tested on several invasive or expanding pathogen and pest species in Europe (Armillaria ostoyae, Bursaphelenchus xylophilus, Diplodia sapinea, Erysiphe alphitoides, Thaumetopoea pityocampa). For each tested species, we successfully isolated several pools of one hundred short gene regions which can be amplified in multiplex. The bio-informatic pipeline is easy to install and to use (i.e. using the concept of container embedding all the computer programs needed for the processing). It also uses little computer resources (i.e. few hundreds of Go, depending of the genome size of the targeted species). We hope that this robust and rapid method of genetic marker isolation will be useful for numerous laboratories involved in the understanding of biological invasions, but with little available resources in bio-informatic.
Depuis plusieurs décennies, une augmentation de l'émergence de maladies ou de ravageurs due à l'introduction ou à des changements environnementaux est constatée, ce qui constitue une menace sérieuse pour les écosystèmes. Beaucoup de ces événements sont associés à des espèces ayant peu ou pas de ressources génomiques (c'est-à-dire des espèces génétiquement orphelines). Ce manque de ressources constitue une sérieuse limitation pour comprendre l'origine des populations émergentes et pour prédire les conséquences futures sur la santé des écosystèmes. L'analyse de la diversité génétique des populations est une méthode efficace pour obtenir rapidement ces informations, mais elle nécessite de disposer de marqueurs génétiques polymorphes. Nous avons développé un pipeline bio-informatique générique pour isoler rapidement ces marqueurs dans le but de les appliquer à de nombreux taxons envahissants avec un accent particulier sur les pathogènes fongiques et les insectes nuisibles. Ce pipeline est basé sur un assemblage de-novo rapide de génome obtenu à partir d'un séquençage du génome entier, en utilisant la technologie Illumina pairé, et l'isolement de gènes en copie unique conservés dans les espèces apparentées des organismes étudiés. Des études antérieures ont montré que les régions introniques de ces gènes conservés contiennent généralement plusieurs polymorphismes de nucléotides au niveau de l'espèce. Le pipeline a été testé sur plusieurs espèces de pathogènes et de ravageurs envahissants ou en expansion en Europe (Armillaria ostoyae, Bursaphelenchus xylophilus, Diplodia sapinea, Erysiphe alphitoides, Thaumetopoea pityocampa). Pour chaque espèce testée, nous avons réussi à isoler plusieurs pools d'une centaine de régions génétiques courtes qui peuvent être amplifiées en multiplex. Le pipeline bio-informatique est facile à installer et à utiliser (c'est-à-dire qu'il utilise le concept de conteneur embarquant tous les programmes informatiques nécessaires au traitement). Il utilise également peu de ressources informatiques (c'est-à-dire quelques centaines de Go, en fonction de la taille du génome de l'espèce ciblée). Nous espérons que cette méthode robuste et rapide d'isolement de marqueurs génétiques sera utile pour de nombreux laboratoires impliqués dans la compréhension des invasions biologiques, mais disposant de peu de ressources en bio-informatique.
Fichier principal
Vignette du fichier
SNP4OrphanSpecies_submit_Nov21_HAL.pdf (333.41 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03425003 , version 1 (10-11-2021)
hal-03425003 , version 2 (29-06-2022)

Identifiants

  • HAL Id : hal-03425003 , version 1

Citer

Benjamin Penaud, Benoît Laurent, Marine Milhes, Camille Noûs, François Ehrenmann, et al.. SNP4OrphanSpecies: A bio-informatic pipeline to isolate robust molecular markers for phylogeny, phylogeographical and population genetic studies of genetically orphan species. 2021. ⟨hal-03425003v1⟩
215 Consultations
92 Téléchargements

Partager

Gmail Facebook X LinkedIn More