FAIR_Bioinfo: a turnkey training course and protocol for reproducible computational biology - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue JOSE - Journal of Open Source Education Année : 2021

FAIR_Bioinfo: a turnkey training course and protocol for reproducible computational biology

FAIR_bioinfo : une formation et un protocole clés en main pour la reproductibilité en bioinformatique

Résumé

Reproducibility plays an essential part in the success of a bioinformatics project. Indeed, Reproducibility makes it possible to guarantee the validity of scientific results and to simplify the dissemination of projects. To help disseminate Reproducibility principles among bioinformatics students, engineers and scientists, we created the FAIR_Bioinfo course, which presents a set of features we consider necessary to make a complete bioinformatics analysis reproducible. To illustrate the theoretical concepts of reproducibility, we use as an example a classic bioinformatics analysis (differential gene expression analysis from RNA-seq data). In short, we retrieve the data from public databases (ENA/SRA), we perform a reproducible analysis using a workflow management system (snakemake) in a virtual environment (Docker). The entire versioned (git) code is open source (Github https://github.com/thomasdenecker/FAIR_Bioinfo and dockerhub https://hub.docker.com/r/tdenecker/fair_bioinfo). The course book is available in English on GitBook (https://fair-bioinfo.gitbook.io/fair-bioinfo/) and the slides in French on Github. The visualization of the results is dynamic (Shiny app) and the PDF or HTML report (Rmarkdown) provides the results of the analysis and lists all user-selected parameters.
La reproductibilité joue un rôle essentiel dans la réussite d'un projet de bioinformatique. En effet, la reproductibilité permet de garantir la validité des résultats scientifiques et de simplifier la diffusion des projets. Pour aider à diffuser les principes de de la reproductibilité auprès des étudiants en bioinformatique, des ingénieurs et des scientifiques, nous avons créé le cours FAIR_Bioinfo, qui présente un ensemble de fonctionnalités que nous considérons comme nécessaires pour rendre reproductible une analyse bioinformatique. Pour illustrer les concepts théoriques de la reproductibilité, nous utilisons comme exemple une analyse bioinformatique classique (analyse de l'expression différentielle des gènes à partir de données de séquences d'ARN). En bref, nous récupérons les données dans des bases de données publiques (ENA/SRA), nous effectuons une analyse reproductible en utilisant un système de gestion de workflows (snakemake) dans un environnement virtuel (Docker). L'ensemble du code versionné (git) est open source (GitHub https://github.com/thomasdenecker/FAIR_Bioinfo et dockerhub https://hub.docker.com/r/tdenecker/fair_bioinfo). Le manuel de cours est disponible en anglais sur GitBook (https://fair-bioinfo.gitbook.io/fair-bioinfo/) et les diapositives en français sur GitHub. La visualisation des résultats est dynamique (Shiny app) et le rapport PDF ou HTML (Rmarkdown) fournit les résultats de l'analyse et liste tous les paramètres sélectionnés par l'utilisateur.
Fichier principal
Vignette du fichier
10.21105.jose.00068.pdf (246.22 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-02880655 , version 1 (25-06-2020)
hal-02880655 , version 2 (10-11-2021)

Licence

Paternité

Identifiants

Citer

Thomas Denecker, Claire Toffano-Nioche. FAIR_Bioinfo: a turnkey training course and protocol for reproducible computational biology. JOSE - Journal of Open Source Education, 2021, ⟨10.21105/jose.00068⟩. ⟨hal-02880655v2⟩
123 Consultations
94 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More