La recherche reproductible : une communication scientifique explicite

Résumé : La locution « recherche reproductible » apparaît de plus en plus fréquemment dans des articles scientifiques, des forums ou des blogs. Ce phénomène a probablement de quoi surprendre certains producteurs et bon nombre de lecteurs de littérature scientifique pour qui le qualificatif de « scientifique » implique, implicitement au moins, la notion de reproductibilité. Tout chercheur prenant un peu de recule va néanmoins très vite réaliser que ce que Michael Polanyi (1998) désignait par « connaissance tacite » joue un rôle -- nécessairement -- considérable dans la vie quotidienne du scientifique, comme de toute personne d'ailleurs. En statistique, nous pourrions mettre les « conditions de régularité » des théorèmes que nous employons dans la catégorie des « connaissances tacites » ; en substance, ces dernières nous permettent de communiquer de façon concise avec nos collègues ; elles nous fournissent une certaine économie de pensée. La concision qu'elles apportent devient par contre un handicap lorsque nous devons communiquer avec des scientifiques d'un autre domaine, problème bien connu des statisticiens ; avec tout à chacun ; mais aussi lorsque nous essayons d'accéder directement à l'« ancienne » littérature de notre propre domaine, puisque dans ce cas, la connaissance tacite va avoir dérivé au cours du temps. Enfin, avec l'utilisation de plus en plus importante de moyens informatiques importants dans tous les aspects de la recherche, les résultats scientifiques dépendent souvent d'un grand nombre de détails techniques d'un protocol de calcul, qui restent dans le domaine de la connaissance tacite tout juste parce qu'on les considère des détails techniques. La « recherche reproductible » peut être vue comme une méthode de réduction de l'implicite dans une partie de notre communication. Elle va résulter en un « document dynamique » ou un « article actif » (Hinsen, 2014) , c'est-à-dire un document qui, en plus de l'article scientifique classique, comportera toute l'information requise à la reproduction de celui-ci, une fois les données acquises. Dans la pratique, ce qui est donc entendu par « reproduction » est tout ce qui vient après la collecte des données ; mais comme l'approche requiert un accès libre à celles-ci, elles deviennent critiquables et comparables : un pas important vers une reproductibilité des données elles-mêmes. Plus explicitement, un document dynamique va donner accès à son lecteur à l'ensemble des données brutes sur lesquelles reposent les résultats présentés, à l'ensemble des codes sources développés spécifiquement pour analyser les données et à une description de nature algorithmique de la façon dont les « codes » ont été appliqués aux données ; n'importe quel lecteur pourra alors régénérer l'ensemble des figures et des tables contenues dans l'article, sous réserve qu'il dispose du même environnement logiciel que les auteurs de l'article. Indépendamment de la justification philosophique qui met l'accent sur la plus grande adéquation entre un idéal scientifique et une pratique quotidienne, il y a d'excellentes raisons, plus banales, pour adopter une pratique « reproductible », cela tant au niveau individuel qu'au niveau d'un laboratoire. La première raison touche au problème de la difficulté d'accès à l'ancienne littérature que nous avons déjà mentionné ; en matière d'analyse de données, une période de six mois peut déjà faire office de temps long et toute personne, à l'exception des plus méticuleuses dans la tenue de leur cahier de laboratoire, sait que reproduire une des ses propres figures après un tel délai peut parfois relever du casse-tête. La recherche reproductible ne va pas forcément faire disparaître instantanément les problèmes rencontrés dans ces circonstances, mais elle va permettre d'identifier leurs éventuelles sources -- un changement de version d'un logiciel par exemple -- de façon beaucoup plus rapide. Notre expérience d'une dizaine d'années avec ce type d'approches montre qu'elles apportent une bien plus grande pérennité au travail du chercheur. Ce qui vaut pour le chercheur « s'observant lui-même » à quelques mois ou années d'écart, vaut d'autant plus pour l'étudiant ou le stagiaire post-doctoral poursuivant le travail d'un de ces prédécesseurs, surtout si celui-ci a déjà quitté le laboratoire. Ainsi la recherche reproductible va automatiquement entraîner une conservation des savoir-faire et, par-là, faciliter leur transmission au sein d'une équipe, d'un laboratoire comme d'un institut. Convaincu de l'intérêt de la recherche reproductible, le lecteur se demande sans doute comment la mettre en pratique. La recherche reproductible est depuis quelques années un domaine en plein développement et, comme tout domaine en pleine croissance, il se présente au novice, à travers la littérature, sous un jour assez chaotique. Le but de cet article, après avoir brièvement présenté le développement historique de la recherche reproductible, est de fournir une boussole, et une cartographie minimale, utiles au lecteur qui voudrait aller plus loin.
Type de document :
Article dans une revue
Statistique et Société, Société française de statistique, 2016, Deux débats sur les données, 3 (1)
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01478360
Contributeur : Christophe Pouzat <>
Soumis le : mardi 28 février 2017 - 10:21:40
Dernière modification le : mardi 10 octobre 2017 - 11:22:05

Identifiants

  • HAL Id : hal-01478360, version 1

Citation

Christophe Pouzat, Andrew Davison, Konrad Hinsen. La recherche reproductible : une communication scientifique explicite. Statistique et Société, Société française de statistique, 2016, Deux débats sur les données, 3 (1). 〈hal-01478360〉

Partager

Métriques

Consultations de la notice

25