Reproductibilité et Science Ouverte

Tout le monde a déjà eu cette expérience

Un article intéressant

Un Mat & Meth décevant

Crise de la reproductibilité

Problème général, “Reproducibility Crisis”

  • Remis en avant par les sciences sociales, notamment en psychologie
  • Étendu à l’ensemble des disciplines scientifiques

Mais un problème qui n’est pas nouveau

Expériences de la pompe à vide au XVIIe siècle (von Guericke et Boyle)

Un déluge de données

Evolutions des sciences

Hey (2009)

De plus en plus de données

Murphy (2014)

Les ravages du temps …

Michener et al. (1997)

L’érosion

Gibney and Van Noorden (2013)

La reproductibilité vue depuis les laboratoires

Selon un sondage mené en 2016 auprès de plus de 1 500 scientifiques plus de 70% ont déjà éprouvé des difficultés à reproduire une analyse

Un problème vieux comme la bioinfo

  • En 2009, moins de la moitié des 18 expériences de transcriptomique publiées entre 2005 et 2006 parues dans Nature Genetics ont pu être reproduites :

Ioannidis et al. (2009)
  • Sur 50 articles citant BWA en 2011, 31 ne citent ni version, ni paramètres, 26 ne donnent pas accès aux données sous-jacentes

Années 2020 : entre avancées et obstacles

Hamilton et al. (2022)

Quelles sont les difficultés (1/2) ?

  • Problèmes d’accès aux données :
    • le fameux “data available upon request”
    • données brutes disponibles, mais méta-données inexistantes ou insuffisantes
  • Problèmes d’accès aux outils :
    • outils anciens ou obsolètes
    • difficultés à installer
  • Problèmes de paramétrage de l’analyse
    • version des outils
    • paramètres des outils
    • enchaînement des outils
  • Problème d’accès aux ressources nécessaires
    • calcul
    • stockage

Quelles sont les difficultés (2/2) ?

  • Les pratiques scientifiques
    • p-hacking : manipulation des données pour atteindre le seuil statistique espéré
    • HARKing : reformulation des hypothèses après l’obtention des résultats
  • Le biais de publication
    • On ne publie “que” ce qui est nouveau
    • On ne publie “que” les résultats positifs
  • La pression de publication
    • La culture du “Publish or Perish” incite à privilégier la quantité au détriment de la qualité

Reproductibilité & Réplicabilité (1/2)

Un résultat expérimental n’est pleinement établi que s’il peut être reproduit de manière indépendante.

  • Répétabilité : même équipe, même conception expérimentale
  • Reproductibilité : équipes différentes, même conception expérimentale
  • Réplicabilité : équipes différentes, conceptions différentes

Whitaker (2017)

Reproductibilité & Réplicabilité (2/2)

  • Il existe une ambiguïté en anglais entre réplication (replication) et reproduction (reproducibility). Derrière la reproducibility crisis on mélange les deux :
    • Impossibilité de répliquer des résultats de façon indépendante (psychologie, médecine, biologie…)
    • Impossibilité de reproduire des analyses à partir des mêmes données de départ

Chacun peut déjà, par la mise en place de pratiques simples et l’utilisation d’outils conviviaux, améliorer la reproductibilité de ses travaux

Source : Allard (2018)

Les données …

Open Data website (2012)

Les données et … les codes !

Aspect Données Code source
Nature Statique – immuable une fois collectées Évolutif – peut changer avec les versions
Actions associées Observations, mesures, collectes Création de connaissances, transformation d’informations, visualisation…
Modification Généralement non modifiées,collectées dans un contexte défini Souvent modifié, adapté, enrichi
Dépendances Principalement indépendant, ou documenté par un protocole de collecte S’appuie sur des dépendances et un environnement logiciel et matériel (librairies, OS, …)
Origine Résultats d’observations ou de faits Œuvre de l’esprit (résultat d’une création)

En pratique, qu’est- ce qu’être reproductible (1/3) ?

Ram (2019)

En pratique, qu’est- ce qu’être reproductible (2/3) ?

Avoir accès :

  • aux pièces (les données)
  • aux outils ( les logiciels )
  • au mode d’emploi : paramètres, workflows d’analyse

En pratique, qu’est- ce qu’être reproductible (3/3) ?

Mais aussi :

  • à la description des pièces, de la façon dont elles ont été produites (méta-données)
  • à la documentation technique (choix techniques explicites)
  • au savoir faire du monteur (formations)
  • Éventuellement à un atelier équipé pour le montage (ressources informatiques)

Le spectre de la reproductibilité

Piazzi et al. (2018)

Science Ouverte

Contexte

Recommandation de l’UNESCO Sur Une Science Ouverte (2021)

Rendre la recherche accessible et transparente

  • Accès à la connaissance
  • Accès aux méthodes
  • Accès à la dissémination
  • Engagement de et vers la société

Cadre juridique

Les données de la recherche sont des informations publiques si financement public à 50% et plus.

  • Principe d’ouverture par défaut et de libre utilisation :
    • 2015 Loi Valter : constitution d’une liste fermée d’administration pouvant fixer des redevances (IGN, Météo France, …)
    • 2016 Loi Lemaire : Loi pour une République Numérique

« aussi ouvert que possible, aussi fermé que nécessaire»

Deux Plans Nationaux pour la Science Ouverte (2018-2021 puis 2022-2024)

  • diffusion sans entrave des publications et des données de la recherche.
  • mobilisation du personnel pour un accompagnement des équipes de recherche.

105 établissements ont répondu à l’enquête (2023-24)

ouvrirlascience.fr

FAIR : pré-requis à la reproductibilité

The Turing Way Community (2025)

Source : Wilkinson et al. (2016)

En pratique : Quels outils utiliser ? (1/2)

Documentation et partage des données de manière pragmatique

  • Documentation accrue
    • Penser gestion de données : responsabilités, formats, cycle de vie, …
    • Penser Plan de Gestion de données : OPIDoR, DSW, DAISY, …
  • Partage des données
    • Dépôts spécialisés internationaux : ENA, NCBI, ensembl, …
    • Plateformes généralistes : DataVerse, Figshare, Zenodo, …
  • Standardisation des outils
    • Conda, Bioconda
    • Singularity, Docker, Apptainer
    • Machines Virtuelles

En pratique : Quels outils utiliser ? (2/2)

  • Décrire son workflow d’analyse, le rendre portable :
    • Galaxy : Grüning et al. (2018)
    • Snakemake : Mölder et al. (2021)
    • Nextflow : Di Tommaso et al. (2017)
  • Gérer les versions de ses codes, les publier :
    • git
    • GitHub / GitLab
    • Software Heritage & HAL
  • Tracer les analyses dans des documents computationnels partageables et réutilisables :
    • Rmarkdown
    • Jupyter Notebooks

Des workflows pour une science ouverte et reproductible

modifié de Paemel (2021)

Gestionnaires de workflows

Snakemake ou Nextflow pour définir de façon “simple” et modulaire des workflows d’analyse :

  • Parallélisables : les étapes indépendantes peu vent être jouées en parallèle.
  • Reprise sur erreur : si on refait une analyse, change un paramètre, seul ce qui doit être rejoué est relancé.
  • Portables : un même script peut être joué en local, sur des clusters différents en changeant le fichier de configuration.
  • Gestion des dépendances : installation des outils avec conda, apptainer, …

Exemple de Snakefile

Bash

for sample in `ls *.fastq.gz` do
    fastqc ${sample}
done

Snakefile

SAMPLES = glob_wildcards("./{sample}.fastq.gz")

rule final: 
    input:expand("fastqc/{sample}/{sample}_fastqc.zip", sample=SAMPLES)
  
rule fastqc:
    input: "{sample}.fastq.gz"
    output: "fastqc/{sample}/{sample}_fastqc.zip"
    conda: "fastqc.yaml"
    message: """Quality check"""
    shell: """fastqc {input} --outdir fastqc/{wildcards.sample}"""

Cinq piliers de la reproductibilité

Ziemann, Poulain, and Bora (2023)
  • L’irréproductibilité des études en bioinformatique demeure un problème majeur et toujours d’actualité.
  • Ces cinq piliers sont un ensemble de bonnes pratiques permettant de mettre en place des flux de travail hautement reproductibles.
  • L’adoption généralisée de ces principes renforcera la fiabilité de la recherche et accélérera la traduction des découvertes fondamentales en bénéfices concrets.

Épilogue

Ressources

Sources

Allard, A. 2018. “La Crise de La Réplicabilité.” https://laviedesidees.fr/La-crise-de-la-replicabilite.html.
Baker, Monya. 2016. “1, 500 Scientists Lift the Lid on Reproducibility.” Nature 533 (7604): 452–54. https://doi.org/10.1038/533452a.
Di Tommaso, Paolo, Maria Chatzou, Evan W Floden, Pablo Prieto Barja, Emilio Palumbo, and Cedric Notredame. 2017. “Nextflow Enables Reproducible Computational Workflows.” Nature Biotechnology 35 (4): 316–19. https://doi.org/10.1038/nbt.3820.
Gibney, Elizabeth, and Richard Van Noorden. 2013. “Scientists Losing Data at a Rapid Rate.” Nature, December. https://doi.org/10.1038/nature.2013.14416.
Grüning, Björn, John Chilton, Johannes Köster, Ryan Dale, Nicola Soranzo, Marius van den Beek, Jeremy Goecks, Rolf Backofen, Anton Nekrutenko, and James Taylor. 2018. “Practical Computational Reproducibility in the Life Sciences.” Cell Systems 6 (6): 631–35. https://doi.org/10.1016/j.cels.2018.03.014.
Hamilton, Daniel G., Matthew J. Page, Sue Finch, Sarah Everitt, and Fiona Fidler. 2022. “How Often Do Cancer Researchers Make Their Data and Code Available and What Factors Are Associated with Sharing?” BMC Medicine 20 (1): 438. https://doi.org/10.1186/s12916-022-02644-2.
Hey, Tony. 2009. The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/.
Ioannidis, John P A, David B Allison, Catherine A Ball, Issa Coulibaly, Xiangqin Cui, Aedín C Culhane, Mario Falchi, et al. 2009. “Repeatability of Published Microarray Gene Expression Analyses.” Nature Genetics 41 (2): 149–55. https://doi.org/10.1038/ng.295.
Michener, William K., James W. Brunt, John J. Helly, Thomas B. Kirchner, and Susan G. Stafford. 1997. “Nongeospatial Metadata for the Ecological Sciences.” Ecological Applications 7 (1): 330–42. https://doi.org/10.1890/1051-0761(1997)007[0330:nmftes]2.0.co;2.
Mölder, Felix, Kim Philipp Jablonski, Brice Letcher, Michael B. Hall, Christopher H. Tomkins-Tinch, Vanessa Sochat, Jan Forster, et al. 2021. “Sustainable Data Analysis with Snakemake.” F1000Research 10 (April): 33. https://doi.org/10.12688/f1000research.29032.2.
Murphy, Denis J. 2014. “Using Modern Plant Breeding to Improve the Nutritional and Technological Qualities of Oil Crops.” OCl 21 (6): D607. https://doi.org/10.1051/ocl/2014038.
Open Data website, 5-star. 2012. “5 ★ Open Data.” https://github.com/mhausenblas/5stardata.info.
Paemel, Ruben Van. 2021. “My Workflow for Open and Reproducible Science as an Academic Researcher in Biomedicine.” https://medium.com/data-science/my-workflow-for-open-and-reproducible-science-as-an-academic-researcher-in-biomedicine-b41eaabcd420.
Piazzi, Arthur C., Augusto S. Cerqueira, Leandro R. Manso, and Carlos A. Duque. 2018. “Reproducible Research Platform for Electric Power Quality Algorithms.” In 2018 18th International Conference on Harmonics and Quality of Power (ICHQP), 1–6. IEEE. https://doi.org/10.1109/ichqp.2018.8378938.
Ram, Karthik. 2019. “How to Make Your Data Analysis Notebooks More Reproducible.” https://github.com/karthik/rstudio2019.
Recommandation de l’UNESCO Sur Une Science Ouverte. 2021. UNESCO. https://doi.org/10.54677/ltrf8541.
The Turing Way Community. 2025. “The Turing Way: A Handbook for Reproducible, Ethical and Collaborative Research.” Zenodo. https://doi.org/10.5281/zenodo.15213042.
Whitaker, Kirstie. 2017. “Showing Your Working: A How to Guide to Reproducible Research.” https://doi.org/10.6084/m9.figshare.5443201.v1.
Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. “The FAIR Guiding Principles for Scientific Data Management and Stewardship.” Scientific Data 3 (1). https://doi.org/10.1038/sdata.2016.18.
Ziemann, Mark, Pierre Poulain, and Anusuiya Bora. 2023. “The Five Pillars of Computational Reproducibility: Bioinformatics and Beyond.” Briefings in Bioinformatics 24 (6). https://doi.org/10.1093/bib/bbad375.