SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Préservation
et accès aux
données du
CERN
Jean-Yves Le Meur
Input from J. Shier / DPHEP
IT Department
eGov Innovation Center, 02-11-2016
Carbon-fiber (100x) © Peter Pook
Le CERN dans le temps
Créé en 1954, le CERN est composé de 22 états membres
Un grand nombre d'accélérateurs sont gérés par le CERN, avec aujourd'hui le
LHC en fer de lance
Le Large Hadron Collider fut proposé dans la fin des années 1970s, alors que
les discussions sur le Lepton Collider (LEP) étaient encore en cours
Un High Luminosity upgrade (HL-LHC) a été approuvé en Juin, comme une
extension du LHC jusque 2040
Ensuite, le High Energy (HE-LHC) ?…
Event simulation in the new HL-LHC ATLAS Inner Detector
© CERN
L’évolution des données
scientifiques de HEP
Traditionnellement, les expériences achetaient et géraient
leurs bandes magnétiques: Capacité de 40-200MB! (des 1600
bpi au cartouches 3480)
Avec le LEP (1989), les robots et nommages de fichiers
Unix ont remplacé les numéros sur les bandes
Mais à la fin du LEP (2000) il n'y avait aucun système de
préservation en place: ~1 million de volumes de bandes
impossible à automatiser
ALEPH a distribué aux instituts un ‘mini-système’:
laptop+disk avec l'environnement complet + toutes les
données !
© CERN
Le Groupe de Travail DPHEP
Créé fin 2008 par DESY
Composé de représentants des principaux labos HEP du monde, y
compris les expériences en fin de phase d’acquisition
Production d'un rapport Blueprint détaillé incluant des recommandations
concrètes, en cours de réalisation
Compte rendu au comité “European Particle Physics Strategy Update”
en 2012/3 – très influent pour tout HEP.
« Il faut se soucier de la conservation
des données dès le début d’une
expérience tout en se projetant, si
possible, des décennies plus tard. » J.
Shier
Quelles sont les difficultés ?
Les données des collisionneurs coûtent cher
Et elles sont longues à produire: l'exemple du LHC avec plusieurs 100aines
de PB
aujourd'hui à des 10aines
d'EB en 2035
Les données ont un immense potentiel scientifique, et une valeur
ajoutée éducative
La plupart des données sont uniques; il faut donc les préserver avec
les moyens de reproduire les analyses passées et d'en lancer de
nouvelles: cela implique de préserver les données, la documentation, les logiciels et
la “connaissance”
Les données d'expériences passées sont parfois re-analysées: il faut
conserver cette capacité dans l'avenir
Que fait DPHEP ?
DPHEP est devenu une Collaboration entre les plus grands labos HEP
et des agences de financement du monde entier
Une "vision 2020" a été définie:
Les données archivées – décrites dans le DPHEP Blueprint et incluant les données
LHC – doivent être faciles à trouver et exploitables par les communautés désignées
avec une politique d'accès (ouvert) et la possibilité de réactiver des recherches;
S'aligner sur les bonnes pratiques et les standards, avec une documentation
exhaustive et une approche durable; en partageant outils et services avec d'autres
disciplines;
Mettre en place d'un portail, point d'accès aux données et aux outils;
Des objectifs & métriques précis pour mesurer les points ci-dessus doivent être
agréés entre les agences, les fournisseurs de services et les Expériences.
En quoi HEP est-il spécial ?
La majorité des données sont ‘jetés’... avant même d'être
capturées – par des “triggers”
Nos détecteurs sont relativement stables sur de longues
périodes (années) – ils ne “doublent pas tous les 6 ou
18 mois”
Nos projets durent des décennies – nous devons
conserver des données utiles au moins pour cette
durée
Les “données des publications” sont partagées pour plus
de 30 ans… (HEPData)
Nous faisons des “mesures” – et non des “observations”
La fusion de trous noirs…
il y a 1.3 milliard d’années-lumière
Une observation par ondes
gravitationnelles
Une mesure...
Le “Future Circular Colliders (FCC)”, un
anneau de ~100 km en phase d’étude
pourrait avoir une luminosité de 1000
fois celles du LEP2 (ee collision)
⇒ Une journée du FCC-ee suffirait à
collecter dix ans de mesures de LEP2
Projet International de ~ 70 Institutes
Les clés du Long Term Data Preservation en HEP
1. Bit preservation : le “service” de base pour soutenir les
autres services
2. Préserver données, logiciels et 'savoir-faire' des
collaborations pour rendre possible la reproductibilité
3. Partager les données et logiciels associés avec les
communautés scientifiques, ex, théoriciens ou physiciens en
dehors de la collaboration de départ
4. Ouvrir l’accès à des portions de données pour le grand
public (expériences LHC)
Ces cas répondent aux exigences des Data Management Plans
“Maybe CERN does bit
preservation better than
anyone else in the world”
David Giaretta
Les DMPs des expériences LHC
La 1ère expérience LHC dotée d'un “DMP” est CMS, en 2012
La release publique d'une partie significative des données a suivi après une
période d'embargo
A ce jour, les 4 expériences ont un DMP
Les détails spécifiques à un projet devront enrichir les DMPs (et non la politique
de préservation générale du CERN)
Quatre niveaux: données brutes ; données reconstruites (analysées) ; données
éducatives (simplifiées) ; données des publications
Les releases publiques sont devenues “routinières”!
Les services du CERN pour la préservation
1. Des processus de "bit preservation" conformes à la norme ISO 16363
2. Des innovations pour la "préservation logicielle" – un défi clé pour HEP dont
l'empilement logiciel est massif et varié (et dynamique)
3. La capture et préservation des analyses, selon un ensemble de cas agréés
4. L'accès aux données des publications – via un portail dédié
5. Un portail des données ouvertes pour les release partielles 'grand-public'
6. Un portail DPHEP qui fait le lien avec les autres efforts de préservation dans
les instituts HEP du monde.
Chaque point demanderait un long discours !
Ce que requiert le ‘bit preservation’
La vérification régulière du support: à l'écriture, une fois plein, tous les 2 ans…
Un cycle de vie controlé: un média peut survivre 2 max. 2 générations de drive
La redondance des données: les 'petits' projets ont une 2ème
copie dans un bâtiment distinct
(ex: LEP – 3 copies au CERN)
Maintenir le lien entre les caches des disques et les serveurs des bandes
Réduire le nombre de 'tape mounts': réduction des frictions & meilleure efficacité
Protéger l'environnement de stockage: senseurs de poussières! (Ne jamais toucher aux
bandes)
⇒ Des progrès permanents: le taux d’erreur (BER) atteint 5x10-16
Floppy disk surface (120x) © Zdenka
Jenikova
La préservation logicielle
HEP partage depuis longtemps ses logiciels à travers des
collaborations internationales
CERNLIB – lancé en 1964 a été utilisé par de nombreuses
communautés dans le monde
HEP s/w atteint maintenant ~107
loc, des centaines de
modules en de multiples languages! (pas d'app standard)
La virtualisation et le versioning des filesystems est
prometteur: 15 ans après l'acquisition, des sw ont déjà pu
être réactivés, et stabilisés pour ~15 ans
Ainsi, nous pourrions analyser les données du LEP ~30
années après la fin de l'acquisition!
La préservation des analyses
Pouvoir reproduire des analyses est exigé par les agences de financement et
fait partie intégrante du travail des expériences et collaborations
Plusieurs cas se présentent:
Une analyse en cours doit être transférée, par ex en cas de départ d'un collaborateur ;
Une analyse antérieure doit être répétée;
Des données d'expériences distinctes doivent être combinées.
Que capturer ? ... métadonnées, logiciel, options de configuration, information
de physique de haut niveau, documentation, instructions, liens aux
présentations, protocoles de qualité, notes internes...
Au moins une expérience (ALICE) aimerait que la preuve de reproductibilité
devienne un critère du processus d’approbation des publications
Un portail pour chaque niveau
Un objectif clair: répondre au défi de
rendre les données “disponibles” et
“exploitables” (voir F.A.I.R.)
Le processus de certification
La certification: des pratiques optimales gravées dans le marbre de l'organisation
L’applicabilité: considérer les données scientifiques mais aussi non scientifiques
(mémoire digitale: documents, multimédia, etc.)
Les grandes lignes:
la gestion des risques: enrichir et compléter documentation et processus
la structure organisationnelle: (re)définir mission, règles et plans de préservation
Le traitement des objets digitaux: supporter OAIS SIP/AIP/DIP dans Invenio/Archivematica
L'ambition: être prêt avant l'”ESPP Update” en 2019/2020; concerne aussi
l'allocation des ressources (staff, formation, plan de succession, etc.)
Le CERN peut se projeter vers le HL LHC (2040/50), mais au delà ? Le FCC ? La
physique le dira…
Audit and certification of
trustworthy digital repositories
La montée en charge des données ?
100 TB par expérience LEP: 3 copies au CERN (1 sur
disque, 2 sur bandes) (+ copies hors site)
1 à 10 PB par expériences au collisionneur HERA à
DESY, au TEVATRON de Fermilab ou à BaBar à
SLAC.
Les expériences LHC produisent déjà plusieurs
centaines de PB (x00 PB)
10 EB ou plus à prévoir après la mise à jour HL-LHC
Electronic chip (10x) © Karl Deckart
Conclusions & étapes suivantes
Impossible de partager, réutiliser des données, ou reproduire des résultats si la
préservation n'est pas initiée (données, logiciel, documentation, savoir) au départ
Saurons-nous capturer assez de “savoir” pour que les données restent
utilisables au delà de la durée de la collaboration initiale ?
Doit-on anticiper des migrations majeures, comme il y en a eu dans le passé ?
(ou x86 / Linux dureront “pour toujours”)
Pour le HL-LHC, disposerons-nous de ressource de stockages pour garder
toutes les données et de la puissance de calcul pour les retraiter ?
Deux “moteurs” favorisent aujourd'hui les actions de préservation digitale: la
divulgation routinière de Données Ouvertes et le processus de Certification
«La préservation de données est un
voyage et non une destination»

Contenu connexe

En vedette

Journée de rencontre 2016 - Joëlle Mastelic
Journée de rencontre 2016 - Joëlle MastelicJournée de rencontre 2016 - Joëlle Mastelic
Journée de rencontre 2016 - Joëlle MastelicGenève Lab
 
L'économie collaborative
L'économie collaborativeL'économie collaborative
L'économie collaborativeGenève Lab
 
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutives
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutivesÉvaluation du projet Antenne citoyenne d'Onex: propositions évolutives
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutivesGenève Lab
 
Accès au financement des entreprises. Et si l'économie collaborative était la...
Accès au financement des entreprises. Et si l'économie collaborative était la...Accès au financement des entreprises. Et si l'économie collaborative était la...
Accès au financement des entreprises. Et si l'économie collaborative était la...Genève Lab
 
The UN perspective on Digital Public Policy
The UN perspective on Digital Public PolicyThe UN perspective on Digital Public Policy
The UN perspective on Digital Public PolicyGenève Lab
 
Evidence-based policy making
Evidence-based policy makingEvidence-based policy making
Evidence-based policy makingGenève Lab
 
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...Genève Lab
 
L'écosystème des drones en Suisse
L'écosystème des drones en SuisseL'écosystème des drones en Suisse
L'écosystème des drones en SuisseGenève Lab
 
Stratégie "Suisse numérique"
Stratégie "Suisse numérique"Stratégie "Suisse numérique"
Stratégie "Suisse numérique"Genève Lab
 
Le crowdfunding, une r-évolution nécessaire
Le crowdfunding, une r-évolution nécessaireLe crowdfunding, une r-évolution nécessaire
Le crowdfunding, une r-évolution nécessaireGenève Lab
 
Smart City – la Ville Intelligente
Smart City – la Ville IntelligenteSmart City – la Ville Intelligente
Smart City – la Ville IntelligenteGenève Lab
 
Le cloud joue-t-il avec nos libertés ?
Le cloud joue-t-il avec nos libertés ?Le cloud joue-t-il avec nos libertés ?
Le cloud joue-t-il avec nos libertés ?Genève Lab
 
Résumé de la Journée de Rencontre 2013
Résumé de la Journée de Rencontre 2013Résumé de la Journée de Rencontre 2013
Résumé de la Journée de Rencontre 2013Genève Lab
 
Politique de la donnée et modernisation de l'action publique
Politique de la donnée et modernisation de l'action publiquePolitique de la donnée et modernisation de l'action publique
Politique de la donnée et modernisation de l'action publiqueHenri Verdier
 
Politiques publiques à l'ère du numérique
Politiques publiques à l'ère du numériquePolitiques publiques à l'ère du numérique
Politiques publiques à l'ère du numériqueGenève Lab
 
La disruption numérique dans l'industrie financière : l'émergence des fintech...
La disruption numérique dans l'industrie financière : l'émergence des fintech...La disruption numérique dans l'industrie financière : l'émergence des fintech...
La disruption numérique dans l'industrie financière : l'émergence des fintech...Genève Lab
 
Résumé de la 23e Journée de rencontre 2014
Résumé de la 23e Journée de rencontre 2014Résumé de la 23e Journée de rencontre 2014
Résumé de la 23e Journée de rencontre 2014Genève Lab
 
Protéger ses données personnelles dans un environnement multi-device: un enje...
Protéger ses données personnelles dans un environnement multi-device: un enje...Protéger ses données personnelles dans un environnement multi-device: un enje...
Protéger ses données personnelles dans un environnement multi-device: un enje...Ensighten
 
Enjeux et risques sur Internet
Enjeux et risques sur InternetEnjeux et risques sur Internet
Enjeux et risques sur InternetBELVEZE Damien
 

En vedette (20)

Journée de rencontre 2016 - Joëlle Mastelic
Journée de rencontre 2016 - Joëlle MastelicJournée de rencontre 2016 - Joëlle Mastelic
Journée de rencontre 2016 - Joëlle Mastelic
 
L'économie collaborative
L'économie collaborativeL'économie collaborative
L'économie collaborative
 
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutives
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutivesÉvaluation du projet Antenne citoyenne d'Onex: propositions évolutives
Évaluation du projet Antenne citoyenne d'Onex: propositions évolutives
 
Accès au financement des entreprises. Et si l'économie collaborative était la...
Accès au financement des entreprises. Et si l'économie collaborative était la...Accès au financement des entreprises. Et si l'économie collaborative était la...
Accès au financement des entreprises. Et si l'économie collaborative était la...
 
The UN perspective on Digital Public Policy
The UN perspective on Digital Public PolicyThe UN perspective on Digital Public Policy
The UN perspective on Digital Public Policy
 
Evidence-based policy making
Evidence-based policy makingEvidence-based policy making
Evidence-based policy making
 
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...
Une perspective européenne de l'impact du Big Data sur l'élaboration des poli...
 
L'écosystème des drones en Suisse
L'écosystème des drones en SuisseL'écosystème des drones en Suisse
L'écosystème des drones en Suisse
 
Stratégie "Suisse numérique"
Stratégie "Suisse numérique"Stratégie "Suisse numérique"
Stratégie "Suisse numérique"
 
Le crowdfunding, une r-évolution nécessaire
Le crowdfunding, une r-évolution nécessaireLe crowdfunding, une r-évolution nécessaire
Le crowdfunding, une r-évolution nécessaire
 
Smart City – la Ville Intelligente
Smart City – la Ville IntelligenteSmart City – la Ville Intelligente
Smart City – la Ville Intelligente
 
Le cloud joue-t-il avec nos libertés ?
Le cloud joue-t-il avec nos libertés ?Le cloud joue-t-il avec nos libertés ?
Le cloud joue-t-il avec nos libertés ?
 
Résumé de la Journée de Rencontre 2013
Résumé de la Journée de Rencontre 2013Résumé de la Journée de Rencontre 2013
Résumé de la Journée de Rencontre 2013
 
Politique de la donnée et modernisation de l'action publique
Politique de la donnée et modernisation de l'action publiquePolitique de la donnée et modernisation de l'action publique
Politique de la donnée et modernisation de l'action publique
 
Politiques publiques à l'ère du numérique
Politiques publiques à l'ère du numériquePolitiques publiques à l'ère du numérique
Politiques publiques à l'ère du numérique
 
La disruption numérique dans l'industrie financière : l'émergence des fintech...
La disruption numérique dans l'industrie financière : l'émergence des fintech...La disruption numérique dans l'industrie financière : l'émergence des fintech...
La disruption numérique dans l'industrie financière : l'émergence des fintech...
 
Résumé de la 23e Journée de rencontre 2014
Résumé de la 23e Journée de rencontre 2014Résumé de la 23e Journée de rencontre 2014
Résumé de la 23e Journée de rencontre 2014
 
Ageris privacy 2016
Ageris privacy 2016Ageris privacy 2016
Ageris privacy 2016
 
Protéger ses données personnelles dans un environnement multi-device: un enje...
Protéger ses données personnelles dans un environnement multi-device: un enje...Protéger ses données personnelles dans un environnement multi-device: un enje...
Protéger ses données personnelles dans un environnement multi-device: un enje...
 
Enjeux et risques sur Internet
Enjeux et risques sur InternetEnjeux et risques sur Internet
Enjeux et risques sur Internet
 

Similaire à Préservation et accès aux données du CERN - Jean-Yves Le Meur

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Lesticetlart Invisu
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfThomas DENECKER
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...kmichel69
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Thierry Chanier
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessingPierre-Marie Brunet
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...AssociationAF
 
Synthèse du projet Koha à l'université Rennes 2
Synthèse du projet Koha à l'université Rennes 2Synthèse du projet Koha à l'université Rennes 2
Synthèse du projet Koha à l'université Rennes 2Julien Sicot
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Jabes 2007 - Restitution session 2
Jabes 2007 - Restitution session 2Jabes 2007 - Restitution session 2
Jabes 2007 - Restitution session 2ABES
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
OpenStack - open source au service du Cloud
OpenStack - open source au service du CloudOpenStack - open source au service du Cloud
OpenStack - open source au service du CloudLINAGORA
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
 
Le pôle thématique surfaces continentales THEIA
Le pôle thématique surfaces continentales THEIALe pôle thématique surfaces continentales THEIA
Le pôle thématique surfaces continentales THEIAACSG - Section Montréal
 
Du dépôt au partage de données
Du dépôt au partage de donnéesDu dépôt au partage de données
Du dépôt au partage de donnéesAntoine Blanchard
 

Similaire à Préservation et accès aux données du CERN - Jean-Yves Le Meur (20)

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
 
OATAO, archive ouverte institutionnelle
OATAO, archive ouverte institutionnelleOATAO, archive ouverte institutionnelle
OATAO, archive ouverte institutionnelle
 
Synthèse du projet Koha à l'université Rennes 2
Synthèse du projet Koha à l'université Rennes 2Synthèse du projet Koha à l'université Rennes 2
Synthèse du projet Koha à l'université Rennes 2
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Jabes 2007 - Restitution session 2
Jabes 2007 - Restitution session 2Jabes 2007 - Restitution session 2
Jabes 2007 - Restitution session 2
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
OpenStack - open source au service du Cloud
OpenStack - open source au service du CloudOpenStack - open source au service du Cloud
OpenStack - open source au service du Cloud
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
Le pôle thématique surfaces continentales THEIA
Le pôle thématique surfaces continentales THEIALe pôle thématique surfaces continentales THEIA
Le pôle thématique surfaces continentales THEIA
 
Du dépôt au partage de données
Du dépôt au partage de donnéesDu dépôt au partage de données
Du dépôt au partage de données
 
Ns jo bim2011 fr
Ns jo bim2011 frNs jo bim2011 fr
Ns jo bim2011 fr
 
ontologie de capteurs
ontologie de capteursontologie de capteurs
ontologie de capteurs
 

Plus de eGov Innovation Center

eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...
eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...
eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...eGov Innovation Center
 
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...eGov Innovation Center
 
eGov Workshop - Introduction à la signature électronique - Leo Bolshanin
eGov Workshop - Introduction à la signature électronique - Leo BolshanineGov Workshop - Introduction à la signature électronique - Leo Bolshanin
eGov Workshop - Introduction à la signature électronique - Leo BolshanineGov Innovation Center
 
Ouverture eGov Workshop - Signature électronique
Ouverture eGov Workshop - Signature électronique Ouverture eGov Workshop - Signature électronique
Ouverture eGov Workshop - Signature électronique eGov Innovation Center
 
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc Beuchat
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc BeuchateGov Workshop - Digital Signature in the Blockchain - Jean-Luc Beuchat
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc BeuchateGov Innovation Center
 
Introduction à Blockchain, Bitcoin, Ethereum
Introduction à Blockchain, Bitcoin, EthereumIntroduction à Blockchain, Bitcoin, Ethereum
Introduction à Blockchain, Bitcoin, EthereumeGov Innovation Center
 
e-factures: avantageux pour vous, pratique pour vos citoyens
e-factures: avantageux pour vous, pratique pour vos citoyense-factures: avantageux pour vous, pratique pour vos citoyens
e-factures: avantageux pour vous, pratique pour vos citoyenseGov Innovation Center
 
La carte professionnelle, un outil de lutte contre le travail au noir
La carte professionnelle, un outil de lutte contre le travail au noirLa carte professionnelle, un outil de lutte contre le travail au noir
La carte professionnelle, un outil de lutte contre le travail au noireGov Innovation Center
 
Smart City – pour mieux comprendre les besoins
Smart City – pour mieux comprendre les besoinsSmart City – pour mieux comprendre les besoins
Smart City – pour mieux comprendre les besoinseGov Innovation Center
 
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...eGov Innovation Center
 
Digital Valais, la mémoire d’un canton via le crowdsourcing
Digital Valais, la mémoire d’un canton via le crowdsourcingDigital Valais, la mémoire d’un canton via le crowdsourcing
Digital Valais, la mémoire d’un canton via le crowdsourcingeGov Innovation Center
 
MyCity: La technologie au service du tourisme
MyCity: La technologie au service du tourismeMyCity: La technologie au service du tourisme
MyCity: La technologie au service du tourismeeGov Innovation Center
 
Une application au service des hébergements d’urgence lausannois
Une application au service des hébergements d’urgence lausannoisUne application au service des hébergements d’urgence lausannois
Une application au service des hébergements d’urgence lausannoiseGov Innovation Center
 
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...eGov Innovation Center
 

Plus de eGov Innovation Center (20)

eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...
eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...
eGov Workshop - Contrôle de la validitié d'un document grâce à la signature é...
 
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...
eGov Workshop - Etude de cas sur la signature électronique via Skribble - Mik...
 
eGov Workshop - Introduction à la signature électronique - Leo Bolshanin
eGov Workshop - Introduction à la signature électronique - Leo BolshanineGov Workshop - Introduction à la signature électronique - Leo Bolshanin
eGov Workshop - Introduction à la signature électronique - Leo Bolshanin
 
Ouverture eGov Workshop - Signature électronique
Ouverture eGov Workshop - Signature électronique Ouverture eGov Workshop - Signature électronique
Ouverture eGov Workshop - Signature électronique
 
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc Beuchat
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc BeuchateGov Workshop - Digital Signature in the Blockchain - Jean-Luc Beuchat
eGov Workshop - Digital Signature in the Blockchain - Jean-Luc Beuchat
 
Introduction à Blockchain, Bitcoin, Ethereum
Introduction à Blockchain, Bitcoin, EthereumIntroduction à Blockchain, Bitcoin, Ethereum
Introduction à Blockchain, Bitcoin, Ethereum
 
Le paiement par mobile
Le paiement par mobileLe paiement par mobile
Le paiement par mobile
 
e-factures: avantageux pour vous, pratique pour vos citoyens
e-factures: avantageux pour vous, pratique pour vos citoyense-factures: avantageux pour vous, pratique pour vos citoyens
e-factures: avantageux pour vous, pratique pour vos citoyens
 
Paiements électronique
Paiements électroniquePaiements électronique
Paiements électronique
 
User Experience & eGovernment for all
User Experience & eGovernment for allUser Experience & eGovernment for all
User Experience & eGovernment for all
 
Digital Seniors
Digital SeniorsDigital Seniors
Digital Seniors
 
La carte professionnelle, un outil de lutte contre le travail au noir
La carte professionnelle, un outil de lutte contre le travail au noirLa carte professionnelle, un outil de lutte contre le travail au noir
La carte professionnelle, un outil de lutte contre le travail au noir
 
Des sites vraiment faciles?
Des sites vraiment faciles?Des sites vraiment faciles?
Des sites vraiment faciles?
 
Smart City – pour mieux comprendre les besoins
Smart City – pour mieux comprendre les besoinsSmart City – pour mieux comprendre les besoins
Smart City – pour mieux comprendre les besoins
 
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...
Etude sur le potentiel du dossier de citoyenneté électronique du point de vue...
 
Digital Valais, la mémoire d’un canton via le crowdsourcing
Digital Valais, la mémoire d’un canton via le crowdsourcingDigital Valais, la mémoire d’un canton via le crowdsourcing
Digital Valais, la mémoire d’un canton via le crowdsourcing
 
L’humain et l’énergie
L’humain et l’énergieL’humain et l’énergie
L’humain et l’énergie
 
MyCity: La technologie au service du tourisme
MyCity: La technologie au service du tourismeMyCity: La technologie au service du tourisme
MyCity: La technologie au service du tourisme
 
Une application au service des hébergements d’urgence lausannois
Une application au service des hébergements d’urgence lausannoisUne application au service des hébergements d’urgence lausannois
Une application au service des hébergements d’urgence lausannois
 
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...
Placer le citoyen au coeur de sites web publics grâce à la démarche centrée u...
 

Préservation et accès aux données du CERN - Jean-Yves Le Meur

  • 1. Préservation et accès aux données du CERN Jean-Yves Le Meur Input from J. Shier / DPHEP IT Department eGov Innovation Center, 02-11-2016 Carbon-fiber (100x) © Peter Pook
  • 2. Le CERN dans le temps Créé en 1954, le CERN est composé de 22 états membres Un grand nombre d'accélérateurs sont gérés par le CERN, avec aujourd'hui le LHC en fer de lance Le Large Hadron Collider fut proposé dans la fin des années 1970s, alors que les discussions sur le Lepton Collider (LEP) étaient encore en cours Un High Luminosity upgrade (HL-LHC) a été approuvé en Juin, comme une extension du LHC jusque 2040 Ensuite, le High Energy (HE-LHC) ?… Event simulation in the new HL-LHC ATLAS Inner Detector © CERN
  • 3.
  • 4. L’évolution des données scientifiques de HEP Traditionnellement, les expériences achetaient et géraient leurs bandes magnétiques: Capacité de 40-200MB! (des 1600 bpi au cartouches 3480) Avec le LEP (1989), les robots et nommages de fichiers Unix ont remplacé les numéros sur les bandes Mais à la fin du LEP (2000) il n'y avait aucun système de préservation en place: ~1 million de volumes de bandes impossible à automatiser ALEPH a distribué aux instituts un ‘mini-système’: laptop+disk avec l'environnement complet + toutes les données ! © CERN
  • 5. Le Groupe de Travail DPHEP Créé fin 2008 par DESY Composé de représentants des principaux labos HEP du monde, y compris les expériences en fin de phase d’acquisition Production d'un rapport Blueprint détaillé incluant des recommandations concrètes, en cours de réalisation Compte rendu au comité “European Particle Physics Strategy Update” en 2012/3 – très influent pour tout HEP. « Il faut se soucier de la conservation des données dès le début d’une expérience tout en se projetant, si possible, des décennies plus tard. » J. Shier
  • 6. Quelles sont les difficultés ? Les données des collisionneurs coûtent cher Et elles sont longues à produire: l'exemple du LHC avec plusieurs 100aines de PB aujourd'hui à des 10aines d'EB en 2035 Les données ont un immense potentiel scientifique, et une valeur ajoutée éducative La plupart des données sont uniques; il faut donc les préserver avec les moyens de reproduire les analyses passées et d'en lancer de nouvelles: cela implique de préserver les données, la documentation, les logiciels et la “connaissance” Les données d'expériences passées sont parfois re-analysées: il faut conserver cette capacité dans l'avenir
  • 7. Que fait DPHEP ? DPHEP est devenu une Collaboration entre les plus grands labos HEP et des agences de financement du monde entier Une "vision 2020" a été définie: Les données archivées – décrites dans le DPHEP Blueprint et incluant les données LHC – doivent être faciles à trouver et exploitables par les communautés désignées avec une politique d'accès (ouvert) et la possibilité de réactiver des recherches; S'aligner sur les bonnes pratiques et les standards, avec une documentation exhaustive et une approche durable; en partageant outils et services avec d'autres disciplines; Mettre en place d'un portail, point d'accès aux données et aux outils; Des objectifs & métriques précis pour mesurer les points ci-dessus doivent être agréés entre les agences, les fournisseurs de services et les Expériences.
  • 8. En quoi HEP est-il spécial ? La majorité des données sont ‘jetés’... avant même d'être capturées – par des “triggers” Nos détecteurs sont relativement stables sur de longues périodes (années) – ils ne “doublent pas tous les 6 ou 18 mois” Nos projets durent des décennies – nous devons conserver des données utiles au moins pour cette durée Les “données des publications” sont partagées pour plus de 30 ans… (HEPData) Nous faisons des “mesures” – et non des “observations”
  • 9. La fusion de trous noirs… il y a 1.3 milliard d’années-lumière Une observation par ondes gravitationnelles
  • 10. Une mesure... Le “Future Circular Colliders (FCC)”, un anneau de ~100 km en phase d’étude pourrait avoir une luminosité de 1000 fois celles du LEP2 (ee collision) ⇒ Une journée du FCC-ee suffirait à collecter dix ans de mesures de LEP2 Projet International de ~ 70 Institutes
  • 11. Les clés du Long Term Data Preservation en HEP 1. Bit preservation : le “service” de base pour soutenir les autres services 2. Préserver données, logiciels et 'savoir-faire' des collaborations pour rendre possible la reproductibilité 3. Partager les données et logiciels associés avec les communautés scientifiques, ex, théoriciens ou physiciens en dehors de la collaboration de départ 4. Ouvrir l’accès à des portions de données pour le grand public (expériences LHC) Ces cas répondent aux exigences des Data Management Plans “Maybe CERN does bit preservation better than anyone else in the world” David Giaretta
  • 12. Les DMPs des expériences LHC La 1ère expérience LHC dotée d'un “DMP” est CMS, en 2012 La release publique d'une partie significative des données a suivi après une période d'embargo A ce jour, les 4 expériences ont un DMP Les détails spécifiques à un projet devront enrichir les DMPs (et non la politique de préservation générale du CERN) Quatre niveaux: données brutes ; données reconstruites (analysées) ; données éducatives (simplifiées) ; données des publications Les releases publiques sont devenues “routinières”!
  • 13. Les services du CERN pour la préservation 1. Des processus de "bit preservation" conformes à la norme ISO 16363 2. Des innovations pour la "préservation logicielle" – un défi clé pour HEP dont l'empilement logiciel est massif et varié (et dynamique) 3. La capture et préservation des analyses, selon un ensemble de cas agréés 4. L'accès aux données des publications – via un portail dédié 5. Un portail des données ouvertes pour les release partielles 'grand-public' 6. Un portail DPHEP qui fait le lien avec les autres efforts de préservation dans les instituts HEP du monde. Chaque point demanderait un long discours !
  • 14. Ce que requiert le ‘bit preservation’ La vérification régulière du support: à l'écriture, une fois plein, tous les 2 ans… Un cycle de vie controlé: un média peut survivre 2 max. 2 générations de drive La redondance des données: les 'petits' projets ont une 2ème copie dans un bâtiment distinct (ex: LEP – 3 copies au CERN) Maintenir le lien entre les caches des disques et les serveurs des bandes Réduire le nombre de 'tape mounts': réduction des frictions & meilleure efficacité Protéger l'environnement de stockage: senseurs de poussières! (Ne jamais toucher aux bandes) ⇒ Des progrès permanents: le taux d’erreur (BER) atteint 5x10-16 Floppy disk surface (120x) © Zdenka Jenikova
  • 15. La préservation logicielle HEP partage depuis longtemps ses logiciels à travers des collaborations internationales CERNLIB – lancé en 1964 a été utilisé par de nombreuses communautés dans le monde HEP s/w atteint maintenant ~107 loc, des centaines de modules en de multiples languages! (pas d'app standard) La virtualisation et le versioning des filesystems est prometteur: 15 ans après l'acquisition, des sw ont déjà pu être réactivés, et stabilisés pour ~15 ans Ainsi, nous pourrions analyser les données du LEP ~30 années après la fin de l'acquisition!
  • 16. La préservation des analyses Pouvoir reproduire des analyses est exigé par les agences de financement et fait partie intégrante du travail des expériences et collaborations Plusieurs cas se présentent: Une analyse en cours doit être transférée, par ex en cas de départ d'un collaborateur ; Une analyse antérieure doit être répétée; Des données d'expériences distinctes doivent être combinées. Que capturer ? ... métadonnées, logiciel, options de configuration, information de physique de haut niveau, documentation, instructions, liens aux présentations, protocoles de qualité, notes internes... Au moins une expérience (ALICE) aimerait que la preuve de reproductibilité devienne un critère du processus d’approbation des publications
  • 17. Un portail pour chaque niveau Un objectif clair: répondre au défi de rendre les données “disponibles” et “exploitables” (voir F.A.I.R.)
  • 18. Le processus de certification La certification: des pratiques optimales gravées dans le marbre de l'organisation L’applicabilité: considérer les données scientifiques mais aussi non scientifiques (mémoire digitale: documents, multimédia, etc.) Les grandes lignes: la gestion des risques: enrichir et compléter documentation et processus la structure organisationnelle: (re)définir mission, règles et plans de préservation Le traitement des objets digitaux: supporter OAIS SIP/AIP/DIP dans Invenio/Archivematica L'ambition: être prêt avant l'”ESPP Update” en 2019/2020; concerne aussi l'allocation des ressources (staff, formation, plan de succession, etc.) Le CERN peut se projeter vers le HL LHC (2040/50), mais au delà ? Le FCC ? La physique le dira… Audit and certification of trustworthy digital repositories
  • 19. La montée en charge des données ? 100 TB par expérience LEP: 3 copies au CERN (1 sur disque, 2 sur bandes) (+ copies hors site) 1 à 10 PB par expériences au collisionneur HERA à DESY, au TEVATRON de Fermilab ou à BaBar à SLAC. Les expériences LHC produisent déjà plusieurs centaines de PB (x00 PB) 10 EB ou plus à prévoir après la mise à jour HL-LHC Electronic chip (10x) © Karl Deckart
  • 20. Conclusions & étapes suivantes Impossible de partager, réutiliser des données, ou reproduire des résultats si la préservation n'est pas initiée (données, logiciel, documentation, savoir) au départ Saurons-nous capturer assez de “savoir” pour que les données restent utilisables au delà de la durée de la collaboration initiale ? Doit-on anticiper des migrations majeures, comme il y en a eu dans le passé ? (ou x86 / Linux dureront “pour toujours”) Pour le HL-LHC, disposerons-nous de ressource de stockages pour garder toutes les données et de la puissance de calcul pour les retraiter ? Deux “moteurs” favorisent aujourd'hui les actions de préservation digitale: la divulgation routinière de Données Ouvertes et le processus de Certification «La préservation de données est un voyage et non une destination»