Cette présentation était la keynote de fermeture pour l'édition 2015 de la conférence SOData! tenu le 26 mars 2015 (voir le programme ici http://sodata.org/?page_id=162). Pierre-Carl Langlais et moi-même avons parlé des défis et opportunités d'une politique publique visant l'ouverture des données de la recherche.
3. Au moins 70%
les bénéfices sont plus importants que les dommages
Climat, biotech
pas assez présents dans le débat public et la recherche
Au moins 80%
la recherche scientifique doit bénéficier de fonds publics
National Science Board, 2008
4. Science et société
Profonde confiance et grand optimisme
MAIS
■ utilisation de “boîtes noires” quasi-
systématique ;
■ enclosure des productions scientifiques ;
■ perversion fondamentale des pratiques.
8. “
The substantive findings of science are a
product of social collaboration and are
assigned to a community (…) The scientist’s
claim to “his” intellectual “property” is
limited to that of recognition and esteem.
Robert K. Merton,
The Normative Structure of Science
9. La circulation des savoirs
Les réseaux scientifiques du
XVIII s. selon Stanford
10. La circulation des savoirs
Dictionnaire de
Pierre Bayle
(1711)
Cyclopaedia
(1728)
Encyclopédie
(1751)
14. Pourquoi est-ce important ?
■ Reproducibilité grâce aux outils ouverts ;
■ Sauvegarde et transparence des
processus ;
■ Transparence et traçabilité de la collecte
des données et des méthodologies ;
■ Intéropérabilité et réutilisation des
procédés et données.
15. Qui a peur du grand méchant GNU ?
Projet de loi relatif à l’enseignement
supérieur et à la recherche, adopté le
9 juillet 2013 (http://www.assemblee-nationale.
fr/14/ta/ta0180.asp)
Scientistsandtheirsoftware,Nature2010
http://ti.arc.nasa.gov/opensource/
16. Le droit de lire
La conférence de Berlin (1908) :
fin du droit de recopie
-> les mentions légales de type
“tous droits réservées” se
multiplient dès années 1970
http://rue89.nouvelobs.com/2014/11/10/france-prefere-payer-deux-fois-les-articles-chercheurs-
255964
17. OLIGOPOLE
Le marché de la publication scientifique
est dominé par quelques grandes
multinationales.
21. Un hacking du droit d’auteur…
La licence de Creative Commons CC-BY est le cadre
juridique de référence du libre accès…
Source : DOAJ
22. …qui atteint ses limites
Le dépôt d’articles
ou de données en
archive ouverte
est conditionné à
l’accord de l’
éditeur.
Source : Données de Sherpa Romeo
23. Vers une loi open access ?
Une recommandation européenne de 2012 invite à
ce que :
les publications issues de la recherche financée
par des fonds publics soient librement
accessibles dans les meilleurs délais, de
préférence immédiatement.
24. La carte mondiale du libre accès
Mexique
Pérou
Argentine
Italie
Alemagne
Irelande
Pays-Bas
25. Une loi open access… en VF
Un projet en préparation intègrerait les
restrictions suivantes :
■ Financé à moitié par l’État (<=> une ligne budgétaire explicite)
■ « Collection paraissant au moins deux fois par
an » ;
■ Délai de 6 mois (les STM) et de 12 mois (les SHS)
■ Toute fin commerciale est exclue
26.
27. L’information (scientifique) veut être libre
Les outils de text
mining
permettent de lire
des millions d’
articles
scientifiques en
quelques mois…
Source : Text2Genome
28. Êtes-vous un robot ?
La réutilisation des
données est de facto
contrôlée par les
éditeurs scientifiques
29. L’information est libre*
*But conditions apply:
■ Libre pour les abonnés d’Elsevier ;
■ API obligatoire ;
■ Uniquement pour les projets à visée “non
commerciale”
(La licence de data mining d’Elsevier)
=> Va-t-on payer les articles une
quatrième fois ?
30. Vers une privatisation des données scientifiques ?
Avec le
processus
Licences for
Europe, la
commission
européenne a
tenté de valider
a posteriori les
revendications
des grands
éditeurs
31. USA : une
jurisprudence sur
Google books (le
data mining relève
du fair use)
Le développement des exceptions
UK : vote d’une
exception au
data mining en
juin 2014
Europe : le
rapport de Julia
Reda prévoit une
exception.
33. Quand l’open data oublie la recherche…
Le Ministère de l’Enseignement supérieur et de la
Recherche est heureusement engagé dans une démarche
de big data : déjà 25 jeux de données en un an… (et
toujours pas de stratégie open data recherche en vue)
34. Qu’est-ce que la donnée de recherche ?
■ N’est pas de la donnée publique
■ Est visée par une exception CADA (accès ok, mais pas
réutilisation)
■ Limitations imposées par les secrets (pro, commercial, etc.)
Loi n° 78-753 du 17 juillet 1978 - Article 11, version en vigueur au 1 mai 2009
Alors ?...
35. Qu’est-ce que la donnée de recherche ?
La donnée de recherche = le produit de la
recherche scientifique
■ données brutes (issues d’expériences, études, mesures) ;
■ métadonnées et détails d’analyse des données brutes ;
■ NB : pour les éditeurs, les données liées aux publications sont
partie intégrante de la publication (publisher-driven data sharing)
(exceptions “classiques” : données personnelles ou relatives à la sécurité d’État, etc.)
Source : “Report consultation Open Research Data” https://ec.europa.eu/digital-
agenda/sites/digital-agenda/files/Report_2013-07-OpenResearchData-Consultation-FINAL1.pdf
36. PRESQUE-LIBRES
Les données brutes sont libres par défaut,
mais cette liberté est entravée par les
pratiques et droits bizarroïdes additionnels.
37. Quid de l’ouverture et du droit à réutilisation ?
It’s complicated…
■ dispositions légales non-unifiées en Europe ;
■ données de recherche ≠ données publiques ;
■ droit des bases de données (France) ;
■ droits français inaliénables + reconnaissance des chercheurs ;
■ besoin d’inclure dans l’évaluation ;
■ question de redevance ;
■ données brutes vs. élaborées ;
■ données brutes assimilables à des oeuvres ;
■ données porteuses d’intérêts commerciaux ;
■ question du devenir potentiel (génomes & médecine, etc.) ;
■ ...
38. Quid du stockage et de la préservation ?
80% des jeux de données des 20 dernières années
ne sont plus disponibles (Vine et al., 2013)
La probabilité de sourcer un jeu de données produit
lors des 20 dernières années ont baissé de 17% (Vine
et al., 2013)
54% des ressources de 238 études ne sont pas
identifiables => pas de vérification (Vasilevsky et al., 2013)
34
pays ont signé la Déclaration pour un
accès publics aux données de recherche
financées par fonds publics (OCDE)
39. Vers une privatisation des données scientifiques ?
Avec le
processus
Licences for
Europe, la
commission
européenne a
tenté de valider
a posteriori les
revendications
des grands
éditeurs
41. Annexes
On savait que vous alliez
poser ces questions
(ou on l’espérait, pour le moins)
42. Un système verrouillé par le facteur d’impact…
Les revues les plus
citées attirent
systématiquement les
chercheurs les plus
prestigieux et
augmentent ainsi leur
facteur d’impact.
43. … qui repose sur l’exploitation de travail bénévole
Avec la réduction des
frais d’édition, la
valeur des revue est
essentiellement créée
par les communautés
scientifiques.
44. Vers une loi open access ?
Plusieurs pays ont légiféré sur l’open access :
Allemagne, Italie, Mexique…
45. HORIZON2020
“A DMP is a document
outlining how research data
will be handled during a
research project, and after
it is completed, is very
important in all aspects for
projects participating in the
Horizon 2020 Open
Research Data Pilot as well
as almost any other
research project.”
Source: http://ec.europa.
eu/research/participants/data/ref/h2020/grants_
manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.
pdf
46. “
Citations were 9% higher for papers with
available data, independent of other variables
(p < 0.01, 95% confidence intervals). (...) The
results indicate that dataset reuse has been
increasing over time.
H. Piwowar and T. Vision, Data reuse and the
open data citation advantage (2013)
47. Crédits
Special thanks to all the people who made and released these awesome
resources for free:
■ Modèle de présentation par SlidesCarnival
■ Cadenas ouvert et fermé : Joel Bryant pour The Noun Project, CC-by-SA
3.0 ; chat du Schrödinger : Marco Petrucci pour The Noun Project, CC-by-
SA 3.0 ; modifiés par auteurs.
■ Image “déclin” par hunotika pour The Noun Project, CC-by-SA 3.0 ;
parapluie par Michael A. Salter pour The Noun Project, CC-by-SA 3.0
■ “L’information veut être libre” : Pierre Selim sur Wikimedia Commons,
CC-BY-SA