Présentation donnée à l'occasion du workshop "La protection des données: de la fermeture à l’ouverture" organisé par l'eGov Innovation Center le 2 novembre 2016 : http://egovinnovation.ch/la-protection-des-donnees-de-la-fermeture-a-louverture/.
5. Le Groupe de Travail DPHEP
Créé fin 2008 par DESY
Composé de représentants des principaux labos HEP du monde, y
compris les expériences en fin de phase d’acquisition
Production d'un rapport Blueprint détaillé incluant des recommandations
concrètes, en cours de réalisation
Compte rendu au comité “European Particle Physics Strategy Update”
en 2012/3 – très influent pour tout HEP.
« Il faut se soucier de la conservation
des données dès le début d’une
expérience tout en se projetant, si
possible, des décennies plus tard. » J.
Shier
6. Quelles sont les difficultés ?
Les données des collisionneurs coûtent cher
Et elles sont longues à produire: l'exemple du LHC avec plusieurs 100aines
de PB
aujourd'hui à des 10aines
d'EB en 2035
Les données ont un immense potentiel scientifique, et une valeur
ajoutée éducative
La plupart des données sont uniques; il faut donc les préserver avec
les moyens de reproduire les analyses passées et d'en lancer de
nouvelles: cela implique de préserver les données, la documentation, les logiciels et
la “connaissance”
Les données d'expériences passées sont parfois re-analysées: il faut
conserver cette capacité dans l'avenir
7. Que fait DPHEP ?
DPHEP est devenu une Collaboration entre les plus grands labos HEP
et des agences de financement du monde entier
Une "vision 2020" a été définie:
Les données archivées – décrites dans le DPHEP Blueprint et incluant les données
LHC – doivent être faciles à trouver et exploitables par les communautés désignées
avec une politique d'accès (ouvert) et la possibilité de réactiver des recherches;
S'aligner sur les bonnes pratiques et les standards, avec une documentation
exhaustive et une approche durable; en partageant outils et services avec d'autres
disciplines;
Mettre en place d'un portail, point d'accès aux données et aux outils;
Des objectifs & métriques précis pour mesurer les points ci-dessus doivent être
agréés entre les agences, les fournisseurs de services et les Expériences.
8. En quoi HEP est-il spécial ?
La majorité des données sont ‘jetés’... avant même d'être
capturées – par des “triggers”
Nos détecteurs sont relativement stables sur de longues
périodes (années) – ils ne “doublent pas tous les 6 ou
18 mois”
Nos projets durent des décennies – nous devons
conserver des données utiles au moins pour cette
durée
Les “données des publications” sont partagées pour plus
de 30 ans… (HEPData)
Nous faisons des “mesures” – et non des “observations”
9. La fusion de trous noirs…
il y a 1.3 milliard d’années-lumière
Une observation par ondes
gravitationnelles
10. Une mesure...
Le “Future Circular Colliders (FCC)”, un
anneau de ~100 km en phase d’étude
pourrait avoir une luminosité de 1000
fois celles du LEP2 (ee collision)
⇒ Une journée du FCC-ee suffirait à
collecter dix ans de mesures de LEP2
Projet International de ~ 70 Institutes
11. Les clés du Long Term Data Preservation en HEP
1. Bit preservation : le “service” de base pour soutenir les
autres services
2. Préserver données, logiciels et 'savoir-faire' des
collaborations pour rendre possible la reproductibilité
3. Partager les données et logiciels associés avec les
communautés scientifiques, ex, théoriciens ou physiciens en
dehors de la collaboration de départ
4. Ouvrir l’accès à des portions de données pour le grand
public (expériences LHC)
Ces cas répondent aux exigences des Data Management Plans
“Maybe CERN does bit
preservation better than
anyone else in the world”
David Giaretta
12. Les DMPs des expériences LHC
La 1ère expérience LHC dotée d'un “DMP” est CMS, en 2012
La release publique d'une partie significative des données a suivi après une
période d'embargo
A ce jour, les 4 expériences ont un DMP
Les détails spécifiques à un projet devront enrichir les DMPs (et non la politique
de préservation générale du CERN)
Quatre niveaux: données brutes ; données reconstruites (analysées) ; données
éducatives (simplifiées) ; données des publications
Les releases publiques sont devenues “routinières”!
13. Les services du CERN pour la préservation
1. Des processus de "bit preservation" conformes à la norme ISO 16363
2. Des innovations pour la "préservation logicielle" – un défi clé pour HEP dont
l'empilement logiciel est massif et varié (et dynamique)
3. La capture et préservation des analyses, selon un ensemble de cas agréés
4. L'accès aux données des publications – via un portail dédié
5. Un portail des données ouvertes pour les release partielles 'grand-public'
6. Un portail DPHEP qui fait le lien avec les autres efforts de préservation dans
les instituts HEP du monde.
Chaque point demanderait un long discours !
15. La préservation logicielle
HEP partage depuis longtemps ses logiciels à travers des
collaborations internationales
CERNLIB – lancé en 1964 a été utilisé par de nombreuses
communautés dans le monde
HEP s/w atteint maintenant ~107
loc, des centaines de
modules en de multiples languages! (pas d'app standard)
La virtualisation et le versioning des filesystems est
prometteur: 15 ans après l'acquisition, des sw ont déjà pu
être réactivés, et stabilisés pour ~15 ans
Ainsi, nous pourrions analyser les données du LEP ~30
années après la fin de l'acquisition!
16. La préservation des analyses
Pouvoir reproduire des analyses est exigé par les agences de financement et
fait partie intégrante du travail des expériences et collaborations
Plusieurs cas se présentent:
Une analyse en cours doit être transférée, par ex en cas de départ d'un collaborateur ;
Une analyse antérieure doit être répétée;
Des données d'expériences distinctes doivent être combinées.
Que capturer ? ... métadonnées, logiciel, options de configuration, information
de physique de haut niveau, documentation, instructions, liens aux
présentations, protocoles de qualité, notes internes...
Au moins une expérience (ALICE) aimerait que la preuve de reproductibilité
devienne un critère du processus d’approbation des publications
17. Un portail pour chaque niveau
Un objectif clair: répondre au défi de
rendre les données “disponibles” et
“exploitables” (voir F.A.I.R.)
18. Le processus de certification
La certification: des pratiques optimales gravées dans le marbre de l'organisation
L’applicabilité: considérer les données scientifiques mais aussi non scientifiques
(mémoire digitale: documents, multimédia, etc.)
Les grandes lignes:
la gestion des risques: enrichir et compléter documentation et processus
la structure organisationnelle: (re)définir mission, règles et plans de préservation
Le traitement des objets digitaux: supporter OAIS SIP/AIP/DIP dans Invenio/Archivematica
L'ambition: être prêt avant l'”ESPP Update” en 2019/2020; concerne aussi
l'allocation des ressources (staff, formation, plan de succession, etc.)
Le CERN peut se projeter vers le HL LHC (2040/50), mais au delà ? Le FCC ? La
physique le dira…
Audit and certification of
trustworthy digital repositories
20. Conclusions & étapes suivantes
Impossible de partager, réutiliser des données, ou reproduire des résultats si la
préservation n'est pas initiée (données, logiciel, documentation, savoir) au départ
Saurons-nous capturer assez de “savoir” pour que les données restent
utilisables au delà de la durée de la collaboration initiale ?
Doit-on anticiper des migrations majeures, comme il y en a eu dans le passé ?
(ou x86 / Linux dureront “pour toujours”)
Pour le HL-LHC, disposerons-nous de ressource de stockages pour garder
toutes les données et de la puissance de calcul pour les retraiter ?
Deux “moteurs” favorisent aujourd'hui les actions de préservation digitale: la
divulgation routinière de Données Ouvertes et le processus de Certification
«La préservation de données est un
voyage et non une destination»