SlideShare une entreprise Scribd logo
1  sur  56
Télécharger pour lire hors ligne
Science ouverte et
principes FAIR dans un
projet de bioinformatique
Comment rendre un projet bioinformatique
plus reproductible ?
Thomas Denecker
Roscoff, 14 mars 2023
2
Une présentation sous le signe de l’Open
https://creativecommons.org/licenses/by-sa/4.0/deed.fr
Un contenu trouvable simplement,
accessible, décrit et réutilisable
ou
ou
3
Contexte
4
De plus en plus de données
Data is the new oil? No: Data is the new soil.
David Mccandless
Data is the new oil
Clive Humby
5
Les données ne dorment jamais !
https://www.domo.com/data-never-sleeps#
6
En biologie, c’est pareil !
https://www.ebi.ac.uk/ena/browser/about/statistics https://www.ebi.ac.uk/pride/statisticsdetails
7
Avec des chiffres
Type de données Base de données Volumes de données
Mesures de l’expression des gènes ArrayExpress 72 938 experiments
2 429 810 assays
56,68 TB of archived data
Mesures de l’expression des gènes GEO 5 570 704 échantillons
Structure 3D des protéines PDB 177 009 Structures
Séquence nucléotidiques GenBank 241 830 635 séquences et
1 731 302 248 418 bases
Données d’identification ou de
quantification des protéines
Pride 580 917 268 spectres de masse
Séquence nucléotidiques (COVID-19) GISAID (EpiCoV) 15 158 725 séquences virales
MAJ : Mars 2023
8
Comment ?
Cout
Dans les années 90
4 ans pour le premier milliard de nucléotides
du génome humain
Aujourd’hui
Le génome complet en moins de 24h
Vitesse
9
Pourquoi ? Créer de la connaissance !
10
Pourquoi générer toujours plus de données ?
Pourquoi ne pas simplement exploiter les données déjà
disponibles ?
- La description des données est encore trop souvent
incomplète ;
- Les données ne sont pas facilement récupérables ;
- Il n’y a souvent pas de contrôle systématique des erreurs
par des experts ;
- Les données ne sont pas générées exactement de la façon
souhaitée ;
- Une question de confiance.
Conclusion : Plus simple ? Plus rapide ? Plus sûr ?
Plus il y a de
données, mieux
c’est !
11
Une question de confiance
Lin, D., Crabtree, J., Dillo, I. et al. The TRUST Principles for digital repositories. Sci Data 7, 144 (2020).
https://doi.org/10.1038/s41597-020-0486-7
12
Les 3 “R” de la confiance
Souvent utilisées mais souvent confondues
et notamment par la langue (Plesser, 2018)
eproductibilité
épétabilité
éplicabilité
R
13
Réplicabilité
“L’étroitesse de l’accord entre les résultats individuels
successifs obtenus sur le même échantillon soumis à l’essai
dans le même laboratoire et dans les conditions suivantes :
même analyste, même appareil, même jour ”
“Obtaining consistent results across studies aimed at
answering the same scientific question, each of which has
obtained its own data”
https://doi.org/10.17226/25303
14
Répétabilité
“L’étroitesse de l’accord entre les résultats individuels
obtenus sur le même échantillon soumis à l’essai dans le
même laboratoire et dont au moins l’un des éléments suivants
est différent : l’analyste, l’appareil, le jour”
“The measurement can be obtained with stated precision by
the same team using the same measurement procedure, the
same measuring system, under the same operating conditions,
in the same location on multiple trials. For computational
experiments, this means that a researcher can reliably repeat
her own computation ”
https://doi.org/10.17226/25303
J1 Jn
15
Reproductibilité
“L’étroitesse de l’accord entre les résultats individuels
obtenus sur le même échantillon soumis à l’essai dans des
laboratoires différents et dans les conditions suivantes :
analyste différent, appareil différent, jour différent ou même
jour”
“Obtaining consistent computational results using the same
input data, computational steps, methods, code, and
conditions of analysis”
16
En résumé
https://doi.org/10.6084/m9.figshare.5443201.v1,
17
Recommandations pour être reproductible
Description de la partie expérimentale
Méthodes, instruments, procédures, mesures, conditions expérimentales
Description de la partie computationnelle
Etapes de l’analyse des données et choix techniques
Description de la partie statistique
Décisions analytiques : quand, comment, pourquoi
Discussion des choix et des résultats obtenus
https://doi.org/10.17226/25303
18
Et dans les faits ?
19
Les données face aux ravages du temps
20
Récupérer les données
https://youtu.be/66oNv_DJuPc
21
Reproduire les données
Kim et al, 2018
https://dx.doi.org/10.1093%2Fgigascience%2Fgiy077
22
La crise de la reproductibilité : en biologie
70 %
des analyses en biologie
expérimentale ne sont
pas reproductibles
Monya Baker, 2016
23
La crise de la reproductibilité : en informatique
(Collberg et al. 2015)
24
La crise de la reproductibilité : en bioinformatique
Nekrutenko & Taylor, Nature
Genetics (2012)
Alsheikh-Ali et al. PLoS ONE (2011)
Begley & Ellis Nature (2012)
25
Mais pourquoi ?
Impossibilité d’installer des outils
- OS non compatible
- Dépendance plus disponible / plus valide
Mise à jour de l’outil rendant inutilisable les codes
- Python 2 et Python 3 !
- Changement des arguments des fonctions utilisées ( R )
Impossibilité de reproduire les résultats de l’analyse
computationnelle
- IDE : version stable du langage différente selon l’OS (Rstudio)
- Version des packages
(Perkel, Nature, 2020)
26
Comment rendre un
projet bioinformatique
plus reproductible ?
27
En étant plus FAIR !
Données brutes
Principes FAIR data
&
Plan de gestion de
données
RAW
Analyse de données
Codes
Algorithmes
Workflow
...
Communications
Articles
Thèse
Poster
...
28
En étant plus FAIR !
Données brutes
Principes FAIR data
&
Plan de gestion de
données
RAW
Analyse de données
Codes
Algorithmes
Workflow
...
Communications
Articles
Thèse
Poster
...
29
Des principes hérités des principes FAIR data
Findable Accessible Interoperable Reusable
30
Des principes hérités des principes FAIR data
Facile à trouver (pour l’Homme et la machine)
- Identifiant unique (un DOI par exemple)
- Métadonnées décrivant l’analyse et les outils
- Les métadonnées sont FAIR, consultables et indexables
Accessible
- Ouvert, gratuit et universellement implémentable
- Les métadonnées sont accessibles, même lorsque le logiciel n'est plus disponible
Interopérable
- Coopération des outils aussi bien en local que sur serveurs
Réutilisable
- Licence claire
- Suivi les normes communautaires
31
Pour aller plus loin
https://doi.org/10.1038/s41597-022-01710-x
32
Concrètement comment faire ?
Etape 1 - Versionner, partager et archiver le code
Etape 2 - Création d’un environnement virtuel
Etape 3 - Installation des outils par un gestionnaire
Etape 4 - Création d’un script d’analyses
Etape 5 - Déporter l’analyse sur un serveur
Etape 6 - Portabilité de l’exploration des résultats
Etape 7 - Editer un rapport d’analyses
R
e
p
r
o
d
u
c
t
i
b
i
l
i
t
é
Proposition en 7 étapes
33
Débat sur les choix techniques
Les principes sont totalement indépendant des
outils présentés
34
Étape 1 - Versionner le code, le partager et l’archiver
Pourquoi ?
- Avoir la bonne version
du code
- Vision dans le temps
- Ouverture à la
communauté
35
Étape 1 - Versionner le code, le partager et l’archiver
Verisonner Archiver
Versionner
/ Partager
Partager
…
36
Étape 1 - Versionner le code, le partager et l’archiver
Avantages / Inconvénients
+ Sauvegarde du code
+ Simple pour partager
+ Gestion automatique
des versions
- Pas simple pour les
novices
Pourquoi ?
- Figer l’environnement
- Partager
l’environnement
Comment
37
Étape 2 - Création d’un environnement virtuel
Pourquoi ?
- Figer l’environnement
- Partager
l’environnement
Comment Avantages / Inconvénients
+ Rapide et léger
+ Portable
+ Simple à partager et
déployer
- Avec un système à
jour
- [docker] Accepté dans
votre structure ?
38
Étape 3 - Installation des outils par un gestionnaire
Pourquoi ?
- Avoir la bonne version
des outils utilisés
- Les installer
simplement
Comment Avantages / Inconvénients
+ Gestionnaire simple à
installer
+ Installation simple des
paquets
+ Gestion des versions
- Peut être lourd
(solution miniconda)
- Paquets manquants
(R)
39
Étape 4 - Création d’un script d’analyse
Pourquoi ?
- Avoir un script
d’analyse
reproductible
- Ne pas refaire ce qui
est déjà fait
- Paralléliser
Comment Avantages / Inconvénients
+ Gestion des jobs
+ Puissant et rapide
+ Capable d’utiliser des
environnements
Conda
+ Parallélisable sur un
cluster
- Une logique à
apprendre
- Syntaxe moins simple
que le script shell
40
Étape 5 - Déporter l’analyse sur un serveur
Pourquoi ?
- Environnement
contrôlé
- Déport de l’analyse
Comment Avantages / Inconvénients
+ Simple à mettre en
place
+ Augmentation de la
puissance (cloud ou
cluster)
+ Pour tout le monde
- Pas simple pour les
novices
- Attention aux données
sensibles
41
Étape 6 - Portabilité de l’exploration des résultats
Pourquoi ?
- Rendre simple
l’exploration
- Simple à partager
Comment Avantages / Inconvénients
+ Portable (HTML)
+ Accessible partout
+ Interactif
(paramétrable,
graphes dynamiques,
...)
- Mélange de langage
42
Étape 7 - Editer un rapport d’analyse
Pourquoi ?
- Avoir une trace de
l’analyse (date, heure,
paramètres, …)
- Stocker les versions
des outils
Comment Avantages / Inconvénients
+ Syntaxe simple
(Markdown)
+ Partage (PDF, HTML,
...)
- Rares problèmes de
visualisation en
43
Conclusion
44
Quel est notre niveau de reproductibilité?
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
45
Quel est notre niveau de reproductibilité?
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
1
46
Quel est notre niveau de reproductibilité?
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
1
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
1
2
3
47
Quel est notre niveau de reproductibilité?
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
1
2
3
5
48
Quel est notre niveau de reproductibilité?
Practical Computational Reproducibility in
the Life Sciences, Björn Grüning et al, 2018
1
2
3
4
5
6
7
49
Quel est notre niveau de reproductibilité?
1
2
3
4
5
6
7
Et vous ?
Où vous situez-vous ?
50
Pour aller encore plus loin dans la reproductibilité
51
Une question toujours ouvertes
1. Données
a. Le faire si les données ne sont pas
FAIR ?
b. Comment gérer les gros volumes
des données ?
c. Comment gérer les mises à jour des
données et métadonnées ?
2. Code
a. Comment être sûr que le code sera
toujours accessible ?
b. Acceptable s’il faut faire des
adaptations ? A quel point ?
c. Fournir tout le code ? (valorisation,
création d’une start-up,...)
3. Temps de calcul (jour, mois, années)
4. Compétence et sensibilité
a. Volonté mais incapacité technique
à le faire
b. "Pourquoi faire, Ca ne sert à rien"
c. Trop long
5. La couverture
a. Faut-il tout rendre reproductible ?
6. Quand le faire ?
a. Au début ? Mais si ça ne marche
pas ?
b. A la fin ?
52
Take home messages
Une vraie réflexion sur la reproductibilité de ses analyses en Bioinformatique
(équilibre, temps, périmètre, …)
Proposition d’une solution qui aide à rendre reproductible n’importe quel
protocole d’analyse
La reproductibilité est une plus value pour la Bioinformatique !
53
Un cercle vertueux
FAIR raw data
+
FAIR_bioinfo scripts/protocols
=
FAIR processed data
54
Se former au FAIR
Formations IFB sur le thème du FAIR
1. Les principes FAIR pour la gestion des données de
recherche en sciences de la vie
2. Les principes FAIR dans un projet de Bioinformatique
https://moodle.france-bioinformatique.fr/
55
Des leviers pour nous aider dans cette démarche
Comité pour la Science ouverte
Ambition posée par la loi pour une république numérique (2016)
Le premier bénéficiaire de la science ouverte est le chercheur lui-même
Isabelle Blanc
2018-2021 2021-2024
Ouvrir l’ensemble des produits et des
méthodes de la recherche
- Les publications
- Les données
- Les codes sources
Une science plus cumulative, plus
robuste, plus reproductible,
transparente et accessible à
toutes et tous
Merci pour votre
attention
Et n’hésitez pas à me contacter pour continuer à
en discuter

Contenu connexe

Similaire à FAIRisation d’analyses bioinformatiques.pdf

Livret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematicLivret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematicPascal Flamand
 
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...Séance 02, Le paysage de la publication des données en 2015, dans la formatio...
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...Alberto González-Talaván
 
Principes et Fonctionnalités Velocity 6.1
Principes et Fonctionnalités Velocity 6.1Principes et Fonctionnalités Velocity 6.1
Principes et Fonctionnalités Velocity 6.1Social Computing
 
Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Mathieu Saby
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
 
Intégration continue
Intégration continueIntégration continue
Intégration continueJohan Moreau
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataBorderCloud
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204Galaxy @ BBRIC , GalaxyDay, IFB, 20131204
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204Sebastien Carrere
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
 
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesDarwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesLuc Desruelle
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Excelerate Systems
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for BioinformaticsKarim Mezhoud
 

Similaire à FAIRisation d’analyses bioinformatiques.pdf (20)

Livret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematicLivret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematic
 
Presentation Dess Ebi
Presentation Dess EbiPresentation Dess Ebi
Presentation Dess Ebi
 
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...Séance 02, Le paysage de la publication des données en 2015, dans la formatio...
Séance 02, Le paysage de la publication des données en 2015, dans la formatio...
 
Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213
 
Principes et Fonctionnalités Velocity 6.1
Principes et Fonctionnalités Velocity 6.1Principes et Fonctionnalités Velocity 6.1
Principes et Fonctionnalités Velocity 6.1
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
 
Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Intégration continue
Intégration continueIntégration continue
Intégration continue
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec Wikidata
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204Galaxy @ BBRIC , GalaxyDay, IFB, 20131204
Galaxy @ BBRIC , GalaxyDay, IFB, 20131204
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesDarwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
 
ontologie de capteurs
ontologie de capteursontologie de capteurs
ontologie de capteurs
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
CV Monique Bachy 08-09-14
CV Monique Bachy 08-09-14CV Monique Bachy 08-09-14
CV Monique Bachy 08-09-14
 

Dernier

MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeBenamraneMarwa
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 

Dernier (15)

Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étude
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 

FAIRisation d’analyses bioinformatiques.pdf

  • 1. Science ouverte et principes FAIR dans un projet de bioinformatique Comment rendre un projet bioinformatique plus reproductible ? Thomas Denecker Roscoff, 14 mars 2023
  • 2. 2 Une présentation sous le signe de l’Open https://creativecommons.org/licenses/by-sa/4.0/deed.fr Un contenu trouvable simplement, accessible, décrit et réutilisable ou ou
  • 4. 4 De plus en plus de données Data is the new oil? No: Data is the new soil. David Mccandless Data is the new oil Clive Humby
  • 5. 5 Les données ne dorment jamais ! https://www.domo.com/data-never-sleeps#
  • 6. 6 En biologie, c’est pareil ! https://www.ebi.ac.uk/ena/browser/about/statistics https://www.ebi.ac.uk/pride/statisticsdetails
  • 7. 7 Avec des chiffres Type de données Base de données Volumes de données Mesures de l’expression des gènes ArrayExpress 72 938 experiments 2 429 810 assays 56,68 TB of archived data Mesures de l’expression des gènes GEO 5 570 704 échantillons Structure 3D des protéines PDB 177 009 Structures Séquence nucléotidiques GenBank 241 830 635 séquences et 1 731 302 248 418 bases Données d’identification ou de quantification des protéines Pride 580 917 268 spectres de masse Séquence nucléotidiques (COVID-19) GISAID (EpiCoV) 15 158 725 séquences virales MAJ : Mars 2023
  • 8. 8 Comment ? Cout Dans les années 90 4 ans pour le premier milliard de nucléotides du génome humain Aujourd’hui Le génome complet en moins de 24h Vitesse
  • 9. 9 Pourquoi ? Créer de la connaissance !
  • 10. 10 Pourquoi générer toujours plus de données ? Pourquoi ne pas simplement exploiter les données déjà disponibles ? - La description des données est encore trop souvent incomplète ; - Les données ne sont pas facilement récupérables ; - Il n’y a souvent pas de contrôle systématique des erreurs par des experts ; - Les données ne sont pas générées exactement de la façon souhaitée ; - Une question de confiance. Conclusion : Plus simple ? Plus rapide ? Plus sûr ? Plus il y a de données, mieux c’est !
  • 11. 11 Une question de confiance Lin, D., Crabtree, J., Dillo, I. et al. The TRUST Principles for digital repositories. Sci Data 7, 144 (2020). https://doi.org/10.1038/s41597-020-0486-7
  • 12. 12 Les 3 “R” de la confiance Souvent utilisées mais souvent confondues et notamment par la langue (Plesser, 2018) eproductibilité épétabilité éplicabilité R
  • 13. 13 Réplicabilité “L’étroitesse de l’accord entre les résultats individuels successifs obtenus sur le même échantillon soumis à l’essai dans le même laboratoire et dans les conditions suivantes : même analyste, même appareil, même jour ” “Obtaining consistent results across studies aimed at answering the same scientific question, each of which has obtained its own data” https://doi.org/10.17226/25303
  • 14. 14 Répétabilité “L’étroitesse de l’accord entre les résultats individuels obtenus sur le même échantillon soumis à l’essai dans le même laboratoire et dont au moins l’un des éléments suivants est différent : l’analyste, l’appareil, le jour” “The measurement can be obtained with stated precision by the same team using the same measurement procedure, the same measuring system, under the same operating conditions, in the same location on multiple trials. For computational experiments, this means that a researcher can reliably repeat her own computation ” https://doi.org/10.17226/25303 J1 Jn
  • 15. 15 Reproductibilité “L’étroitesse de l’accord entre les résultats individuels obtenus sur le même échantillon soumis à l’essai dans des laboratoires différents et dans les conditions suivantes : analyste différent, appareil différent, jour différent ou même jour” “Obtaining consistent computational results using the same input data, computational steps, methods, code, and conditions of analysis”
  • 17. 17 Recommandations pour être reproductible Description de la partie expérimentale Méthodes, instruments, procédures, mesures, conditions expérimentales Description de la partie computationnelle Etapes de l’analyse des données et choix techniques Description de la partie statistique Décisions analytiques : quand, comment, pourquoi Discussion des choix et des résultats obtenus https://doi.org/10.17226/25303
  • 18. 18 Et dans les faits ?
  • 19. 19 Les données face aux ravages du temps
  • 21. 21 Reproduire les données Kim et al, 2018 https://dx.doi.org/10.1093%2Fgigascience%2Fgiy077
  • 22. 22 La crise de la reproductibilité : en biologie 70 % des analyses en biologie expérimentale ne sont pas reproductibles Monya Baker, 2016
  • 23. 23 La crise de la reproductibilité : en informatique (Collberg et al. 2015)
  • 24. 24 La crise de la reproductibilité : en bioinformatique Nekrutenko & Taylor, Nature Genetics (2012) Alsheikh-Ali et al. PLoS ONE (2011) Begley & Ellis Nature (2012)
  • 25. 25 Mais pourquoi ? Impossibilité d’installer des outils - OS non compatible - Dépendance plus disponible / plus valide Mise à jour de l’outil rendant inutilisable les codes - Python 2 et Python 3 ! - Changement des arguments des fonctions utilisées ( R ) Impossibilité de reproduire les résultats de l’analyse computationnelle - IDE : version stable du langage différente selon l’OS (Rstudio) - Version des packages (Perkel, Nature, 2020)
  • 26. 26 Comment rendre un projet bioinformatique plus reproductible ?
  • 27. 27 En étant plus FAIR ! Données brutes Principes FAIR data & Plan de gestion de données RAW Analyse de données Codes Algorithmes Workflow ... Communications Articles Thèse Poster ...
  • 28. 28 En étant plus FAIR ! Données brutes Principes FAIR data & Plan de gestion de données RAW Analyse de données Codes Algorithmes Workflow ... Communications Articles Thèse Poster ...
  • 29. 29 Des principes hérités des principes FAIR data Findable Accessible Interoperable Reusable
  • 30. 30 Des principes hérités des principes FAIR data Facile à trouver (pour l’Homme et la machine) - Identifiant unique (un DOI par exemple) - Métadonnées décrivant l’analyse et les outils - Les métadonnées sont FAIR, consultables et indexables Accessible - Ouvert, gratuit et universellement implémentable - Les métadonnées sont accessibles, même lorsque le logiciel n'est plus disponible Interopérable - Coopération des outils aussi bien en local que sur serveurs Réutilisable - Licence claire - Suivi les normes communautaires
  • 31. 31 Pour aller plus loin https://doi.org/10.1038/s41597-022-01710-x
  • 32. 32 Concrètement comment faire ? Etape 1 - Versionner, partager et archiver le code Etape 2 - Création d’un environnement virtuel Etape 3 - Installation des outils par un gestionnaire Etape 4 - Création d’un script d’analyses Etape 5 - Déporter l’analyse sur un serveur Etape 6 - Portabilité de l’exploration des résultats Etape 7 - Editer un rapport d’analyses R e p r o d u c t i b i l i t é Proposition en 7 étapes
  • 33. 33 Débat sur les choix techniques Les principes sont totalement indépendant des outils présentés
  • 34. 34 Étape 1 - Versionner le code, le partager et l’archiver Pourquoi ? - Avoir la bonne version du code - Vision dans le temps - Ouverture à la communauté
  • 35. 35 Étape 1 - Versionner le code, le partager et l’archiver Verisonner Archiver Versionner / Partager Partager …
  • 36. 36 Étape 1 - Versionner le code, le partager et l’archiver Avantages / Inconvénients + Sauvegarde du code + Simple pour partager + Gestion automatique des versions - Pas simple pour les novices Pourquoi ? - Figer l’environnement - Partager l’environnement Comment
  • 37. 37 Étape 2 - Création d’un environnement virtuel Pourquoi ? - Figer l’environnement - Partager l’environnement Comment Avantages / Inconvénients + Rapide et léger + Portable + Simple à partager et déployer - Avec un système à jour - [docker] Accepté dans votre structure ?
  • 38. 38 Étape 3 - Installation des outils par un gestionnaire Pourquoi ? - Avoir la bonne version des outils utilisés - Les installer simplement Comment Avantages / Inconvénients + Gestionnaire simple à installer + Installation simple des paquets + Gestion des versions - Peut être lourd (solution miniconda) - Paquets manquants (R)
  • 39. 39 Étape 4 - Création d’un script d’analyse Pourquoi ? - Avoir un script d’analyse reproductible - Ne pas refaire ce qui est déjà fait - Paralléliser Comment Avantages / Inconvénients + Gestion des jobs + Puissant et rapide + Capable d’utiliser des environnements Conda + Parallélisable sur un cluster - Une logique à apprendre - Syntaxe moins simple que le script shell
  • 40. 40 Étape 5 - Déporter l’analyse sur un serveur Pourquoi ? - Environnement contrôlé - Déport de l’analyse Comment Avantages / Inconvénients + Simple à mettre en place + Augmentation de la puissance (cloud ou cluster) + Pour tout le monde - Pas simple pour les novices - Attention aux données sensibles
  • 41. 41 Étape 6 - Portabilité de l’exploration des résultats Pourquoi ? - Rendre simple l’exploration - Simple à partager Comment Avantages / Inconvénients + Portable (HTML) + Accessible partout + Interactif (paramétrable, graphes dynamiques, ...) - Mélange de langage
  • 42. 42 Étape 7 - Editer un rapport d’analyse Pourquoi ? - Avoir une trace de l’analyse (date, heure, paramètres, …) - Stocker les versions des outils Comment Avantages / Inconvénients + Syntaxe simple (Markdown) + Partage (PDF, HTML, ...) - Rares problèmes de visualisation en
  • 44. 44 Quel est notre niveau de reproductibilité? Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018
  • 45. 45 Quel est notre niveau de reproductibilité? Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018 1
  • 46. 46 Quel est notre niveau de reproductibilité? Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018 1 Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018 1 2 3
  • 47. 47 Quel est notre niveau de reproductibilité? Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018 1 2 3 5
  • 48. 48 Quel est notre niveau de reproductibilité? Practical Computational Reproducibility in the Life Sciences, Björn Grüning et al, 2018 1 2 3 4 5 6 7
  • 49. 49 Quel est notre niveau de reproductibilité? 1 2 3 4 5 6 7 Et vous ? Où vous situez-vous ?
  • 50. 50 Pour aller encore plus loin dans la reproductibilité
  • 51. 51 Une question toujours ouvertes 1. Données a. Le faire si les données ne sont pas FAIR ? b. Comment gérer les gros volumes des données ? c. Comment gérer les mises à jour des données et métadonnées ? 2. Code a. Comment être sûr que le code sera toujours accessible ? b. Acceptable s’il faut faire des adaptations ? A quel point ? c. Fournir tout le code ? (valorisation, création d’une start-up,...) 3. Temps de calcul (jour, mois, années) 4. Compétence et sensibilité a. Volonté mais incapacité technique à le faire b. "Pourquoi faire, Ca ne sert à rien" c. Trop long 5. La couverture a. Faut-il tout rendre reproductible ? 6. Quand le faire ? a. Au début ? Mais si ça ne marche pas ? b. A la fin ?
  • 52. 52 Take home messages Une vraie réflexion sur la reproductibilité de ses analyses en Bioinformatique (équilibre, temps, périmètre, …) Proposition d’une solution qui aide à rendre reproductible n’importe quel protocole d’analyse La reproductibilité est une plus value pour la Bioinformatique !
  • 53. 53 Un cercle vertueux FAIR raw data + FAIR_bioinfo scripts/protocols = FAIR processed data
  • 54. 54 Se former au FAIR Formations IFB sur le thème du FAIR 1. Les principes FAIR pour la gestion des données de recherche en sciences de la vie 2. Les principes FAIR dans un projet de Bioinformatique https://moodle.france-bioinformatique.fr/
  • 55. 55 Des leviers pour nous aider dans cette démarche Comité pour la Science ouverte Ambition posée par la loi pour une république numérique (2016) Le premier bénéficiaire de la science ouverte est le chercheur lui-même Isabelle Blanc 2018-2021 2021-2024 Ouvrir l’ensemble des produits et des méthodes de la recherche - Les publications - Les données - Les codes sources Une science plus cumulative, plus robuste, plus reproductible, transparente et accessible à toutes et tous
  • 56. Merci pour votre attention Et n’hésitez pas à me contacter pour continuer à en discuter