Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules
Problématique du devenir des données
au Centre de Calcul de l'IN2P3
Pascal CALVAT, 16 Janvier 2015
Plan
2
 L’avalanche numérique dans tous les domaines
 Présentation du Centre de calcul CCIN2P3
 Plan de management des données au CCIN2P3
Pistes d’améliorations de la gestion des données :
 Inventaire des données
 Point annuel avec les responsables des données
L’avalanche numérique dans tous les domaines
3
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis
sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scan de l’ensemble du ciel en trois nuits
(démarrage 2020)
•150 Po de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue publique
• http://www.lsst.org/
Physique des particules - LHC (CERN - Genève)
Astronomie - LSST (Chili)
Quelques exemples :
Le détecteur ATLAS au CERN (Genève)
4
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis
sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scanne de l’ensemble du ciel en trois nuits
(démarrage 2020)
•150 de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue public
• http://www.lsst.org/
Physique des particules - LHC (CERN - Geneve)
Astronomie - LSST (Chili)
Quelques exemples :
L’avalanche numérique dans tous les domaines
5
Biologie – Séquenceur haut débit
BNF (Paris)
• Numérisation d’ouvrages
• 100 To par an
• Archivage pérenne
• Service de diffusion de données
• http://www.bnf.fr
• Séquençage de l’ADN
• 1 Po pour la plateforme informatique
• Machine de calcul parallèle
• Plusieurs To de mémoire pour l’analyse
• Données rendues publiques
• http://bioinfo.genotoul.fr/
Avalanche numérique : besoin de ressources informatiques mutualisées
Titre de la présentation 6
Pour faire face à cette avalanche numérique, les chercheurs doivent
avoir accès à des ressources informatiques mutualisées.
Laboratoire Centre de calcul
Grille de calcul
(plusieurs centres de calculs)
La gestion des données numériques devient un point
incontournable dans la réussite des projets scientifiques
Avantages d’une bonne gestion des données
Titre de la présentation Date 7
Mener un projet de recherche à son terme
Eviter la perte de données uniques ou difficilement reproductibles
Accélérer la recherche en mutualisant les efforts dans les équipes de recherche
Améliorer la qualité des données en réduisant les données orphelines
Intensifier la collaboration entre chercheurs en accédant à des données
structurées en ligne (gratuites ou pas)
Continuer à exploiter des données après la fin des projets :
Exploiter les données après l’arrêt d’un accélérateur
Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux)
Réduire les dépenses informatiques
Quels sont les avantages d’une bonne gestion des données?
Le Centre de calcul de l’IN2P3 en quelques mots
8
8
L’IN2P3 dispose d’un centre de calcul,
le CCIN2P3, installé à Lyon depuis
1986
La mission du CCIN2P3
est de fournir des services
informatiques aux laboratoires de
l’IN2P3 (CNRS) et l’IRFU (CEA)
Ouverture vers la biologie et les
sciences humaines et sociales
60 ingénieurs informaticiens
Services disponibles 24h/24
IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
Le CCIN2P3 : un gigantesque entrepôt de données
9
9
25 Po
Disque
20 000 cœurs de calcul pour
l’analyse des données et les
simulations
Bandes magnétiques
15 Po sur disque
Calcul
Le CCIN2P3 : un gigantesque entrepôt de données
10
Utilisateurs répartis dans différentes disciplines :
 Physique nucléaire et des particules (LHC au CERN)
 Astrophysique
 Ouverture interdisciplinaire : biologie, écologie, sciences humaines et
sociales (Huma-Num)
Au total :
 2500 utilisateurs répartis dans 170 groupes de recherche (groupe =
projet scientifique)
 40 Po répartis dans différentes technologies de stockage
Technologie Espace occupé Fichier en millions
GPFS 1.5 Po 476
AFS 3.5 To 3.5
HPSS 25 Po 49
iRODS 9 Po 60
DCACHE 8 Po -
TSM 1 Po -
Le CCIN2P3 : Type de fichiers
11
 Fichiers de données avec tout type de format
◦ Raw data (appareil de mesure, relevé de terrain)
◦ Banques de données communautaires
◦ Simulation
◦ Analyse
 Programmes informatiques (liés à un langage et un
environnement d’exécution)
 Codes de gestion du workflow
◦ Lancement des calculs
◦ Traitement sur les données (transfert, fusion de données)
Comment gérer efficacement une telle diversité de données?
Gestion des données : le Data Management Plan
12
Pour une gestion correcte des données, chaque projet devrait
définir un plan de gestion de données
 Le Data Management Plan (DMP) formalise la façon de gérer
les données liées à un projet de recherche
- Description des données, des métadonnées et du format
- Description du cycle de vie des données y compris après le projet
- Détail de la politique associée aux données (accès, diffusion,
confidentialité)
- Aspects budgétaires
 Exemple de DMP en français issu du projet Horizon 2020 :
http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p
gd_horizon_2020_tr_fr.pdf
Gestion des données: le plan de management « en vigueur » au CCIN2P3
13
 DMP (Data Management Plan) par défaut au CCIN2P3 :
o Recopie des données sur des supports récents. Cette opération est
effectuée de manière transparente par les experts du Centre de calcul.
o Les données sont accessibles pendant la durée du projet
o Pas de campagne systématique d'effacement des données (sauf
demande explicite) y compris en fin de projet
o Certaines zones de stockage peuvent être sauvegardées à la demande
o Désignation d’un responsable des données par projet
o Respect des engagements du MoU (Memorandum of understanding).
oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou
Les projets scientifiques disposent rarement d’un plan de management des données.
Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté
sur la préservation des octets et l’accès en ligne aux données
Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur
14
 Qualités
- Données accessibles en temps réel
- Garantie de relire les données dans le futur sur des médias récents
- Perte de temps minimale concernant la gestion des données
- Gain de temps pour faire de la recherche et écrire des publications
 Faiblesses
- Le CCIN2P3 ne connaît pas la criticité des données stockées
- Données temporaires ou orphelines pas supprimées entièrement
- Difficulté d’identification du propriétaire des données pour les projets terminés
- Lourdeur de la migration des données
- Pas de stockage au sens archivistique du terme
 Réaliser un inventaire des données stockées au CCIN2P3
 Faire un point annuel entre le CCIN2P3 et les responsables des
données côté projet
Pistes d’amélioration de la gestion des données :
L’inventaire des données
15
Un inventaire des données est réalisé quotidiennement sur
l’ensemble des systèmes de stockage du centre (40 Po)
Cet inventaire est à destination des ingénieurs du centre pour
avoir une vue détaillée des données, mais aussi à destination
des responsables des données dans le projet de recherche
Informations recueillies (si disponibles) :
 Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE)
 Propriétaire du fichier, nom du projet
 Répertoire parent
 Nombre de fichiers, sous-répertoires, liens
 Espace utilisé, quota alloué
 Date de dernière modification
 Date de dernier accès
Il a fallu plus de deux ans pour mettre en place l’inventaire
Inventaire des données : informations actuellement moissonnées
16
Propriét
aire
Fichiers Espace utilisé Répertoire
parent
Date de
dernier
accès
Date de
dernière
modification
Quota
AFS   
Par utilisateur

Par
utilisateur

Par
utilisateur

DCACHE 
Par projet

HPSS   
Par utilisateur

Par
utilisateur

Par
utilisateur
IRODS   
Par utilisateur
GPFS   
Par utilisateur

Par projet

Ces informations sont indispensables pour une curation efficace des
données.
Vocabulaire : curation = l'ensemble des activités et opérations nécessaires
à une gestion active des données de recherche numériques
Un point annuel sur les données
17
Le point sur les données a pour but d’identifier les actions de curation
prioritaires
 Réalisé avec le(s) responsable(s) des données au moins une fois par an
 Difficile à organiser avec 170 groupes de recherche répartis dans le
monde
o Réunion au CCIN2P3 ou dans le laboratoire de recherche
o Visio-conférence
o Téléphone
o Par mail
 Points abordés :
o Identification des comptes à fermer ou à prolonger
o Identification des actions de curation prioritaires
o Estimation des besoins en stockage pour l’année suivante
Devenir des données au CCIN2P3
18
Après la fin d’un projet, les données suivent des destins
différents selon la politique du projet :
Les données peuvent :
 Etre supprimées
 Restées accessibles en ligne pendant plusieurs années
 Exportées vers une base de données communautaire
 Sauvegardées avec un replica
Conclusion
19
 La gestion des données est une étape devenue incontournable dans les projets
scientifiques
 Le Data Management Plan doit être défini en amont du projet afin d’éviter de
mauvaises surprises
 La pérennisation et la mise à disposition des données doit être spécifiée
clairement dans le DMP d’un point de vue technique et financier
 L’inventaire des données et le point annuel sont indispensables pour enclencher
les actions de curation
Contact : calvat(at)in2p3(dot)fr
Groupe de réflexion sur le devenir des données au CCIN2P3:
Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat,
Rachid Lemrani, Jean-Yves Nief
MERCI

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

  • 1.
    Centre de Calculde l’Institut National de Physique Nucléaire et de Physique des Particules Problématique du devenir des données au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015
  • 2.
    Plan 2  L’avalanche numériquedans tous les domaines  Présentation du Centre de calcul CCIN2P3  Plan de management des données au CCIN2P3 Pistes d’améliorations de la gestion des données :  Inventaire des données  Point annuel avec les responsables des données
  • 3.
    L’avalanche numérique danstous les domaines 3 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scan de l’ensemble du ciel en trois nuits (démarrage 2020) •150 Po de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue publique • http://www.lsst.org/ Physique des particules - LHC (CERN - Genève) Astronomie - LSST (Chili) Quelques exemples :
  • 4.
    Le détecteur ATLASau CERN (Genève) 4 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scanne de l’ensemble du ciel en trois nuits (démarrage 2020) •150 de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue public • http://www.lsst.org/ Physique des particules - LHC (CERN - Geneve) Astronomie - LSST (Chili) Quelques exemples :
  • 5.
    L’avalanche numérique danstous les domaines 5 Biologie – Séquenceur haut débit BNF (Paris) • Numérisation d’ouvrages • 100 To par an • Archivage pérenne • Service de diffusion de données • http://www.bnf.fr • Séquençage de l’ADN • 1 Po pour la plateforme informatique • Machine de calcul parallèle • Plusieurs To de mémoire pour l’analyse • Données rendues publiques • http://bioinfo.genotoul.fr/
  • 6.
    Avalanche numérique :besoin de ressources informatiques mutualisées Titre de la présentation 6 Pour faire face à cette avalanche numérique, les chercheurs doivent avoir accès à des ressources informatiques mutualisées. Laboratoire Centre de calcul Grille de calcul (plusieurs centres de calculs) La gestion des données numériques devient un point incontournable dans la réussite des projets scientifiques
  • 7.
    Avantages d’une bonnegestion des données Titre de la présentation Date 7 Mener un projet de recherche à son terme Eviter la perte de données uniques ou difficilement reproductibles Accélérer la recherche en mutualisant les efforts dans les équipes de recherche Améliorer la qualité des données en réduisant les données orphelines Intensifier la collaboration entre chercheurs en accédant à des données structurées en ligne (gratuites ou pas) Continuer à exploiter des données après la fin des projets : Exploiter les données après l’arrêt d’un accélérateur Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux) Réduire les dépenses informatiques Quels sont les avantages d’une bonne gestion des données?
  • 8.
    Le Centre decalcul de l’IN2P3 en quelques mots 8 8 L’IN2P3 dispose d’un centre de calcul, le CCIN2P3, installé à Lyon depuis 1986 La mission du CCIN2P3 est de fournir des services informatiques aux laboratoires de l’IN2P3 (CNRS) et l’IRFU (CEA) Ouverture vers la biologie et les sciences humaines et sociales 60 ingénieurs informaticiens Services disponibles 24h/24 IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
  • 9.
    Le CCIN2P3 :un gigantesque entrepôt de données 9 9 25 Po Disque 20 000 cœurs de calcul pour l’analyse des données et les simulations Bandes magnétiques 15 Po sur disque Calcul
  • 10.
    Le CCIN2P3 :un gigantesque entrepôt de données 10 Utilisateurs répartis dans différentes disciplines :  Physique nucléaire et des particules (LHC au CERN)  Astrophysique  Ouverture interdisciplinaire : biologie, écologie, sciences humaines et sociales (Huma-Num) Au total :  2500 utilisateurs répartis dans 170 groupes de recherche (groupe = projet scientifique)  40 Po répartis dans différentes technologies de stockage Technologie Espace occupé Fichier en millions GPFS 1.5 Po 476 AFS 3.5 To 3.5 HPSS 25 Po 49 iRODS 9 Po 60 DCACHE 8 Po - TSM 1 Po -
  • 11.
    Le CCIN2P3 :Type de fichiers 11  Fichiers de données avec tout type de format ◦ Raw data (appareil de mesure, relevé de terrain) ◦ Banques de données communautaires ◦ Simulation ◦ Analyse  Programmes informatiques (liés à un langage et un environnement d’exécution)  Codes de gestion du workflow ◦ Lancement des calculs ◦ Traitement sur les données (transfert, fusion de données) Comment gérer efficacement une telle diversité de données?
  • 12.
    Gestion des données: le Data Management Plan 12 Pour une gestion correcte des données, chaque projet devrait définir un plan de gestion de données  Le Data Management Plan (DMP) formalise la façon de gérer les données liées à un projet de recherche - Description des données, des métadonnées et du format - Description du cycle de vie des données y compris après le projet - Détail de la politique associée aux données (accès, diffusion, confidentialité) - Aspects budgétaires  Exemple de DMP en français issu du projet Horizon 2020 : http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p gd_horizon_2020_tr_fr.pdf
  • 13.
    Gestion des données:le plan de management « en vigueur » au CCIN2P3 13  DMP (Data Management Plan) par défaut au CCIN2P3 : o Recopie des données sur des supports récents. Cette opération est effectuée de manière transparente par les experts du Centre de calcul. o Les données sont accessibles pendant la durée du projet o Pas de campagne systématique d'effacement des données (sauf demande explicite) y compris en fin de projet o Certaines zones de stockage peuvent être sauvegardées à la demande o Désignation d’un responsable des données par projet o Respect des engagements du MoU (Memorandum of understanding). oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou Les projets scientifiques disposent rarement d’un plan de management des données. Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté sur la préservation des octets et l’accès en ligne aux données
  • 14.
    Le CCIN2P3 :qualités et faiblesses du plan de gestion en vigueur 14  Qualités - Données accessibles en temps réel - Garantie de relire les données dans le futur sur des médias récents - Perte de temps minimale concernant la gestion des données - Gain de temps pour faire de la recherche et écrire des publications  Faiblesses - Le CCIN2P3 ne connaît pas la criticité des données stockées - Données temporaires ou orphelines pas supprimées entièrement - Difficulté d’identification du propriétaire des données pour les projets terminés - Lourdeur de la migration des données - Pas de stockage au sens archivistique du terme  Réaliser un inventaire des données stockées au CCIN2P3  Faire un point annuel entre le CCIN2P3 et les responsables des données côté projet Pistes d’amélioration de la gestion des données :
  • 15.
    L’inventaire des données 15 Uninventaire des données est réalisé quotidiennement sur l’ensemble des systèmes de stockage du centre (40 Po) Cet inventaire est à destination des ingénieurs du centre pour avoir une vue détaillée des données, mais aussi à destination des responsables des données dans le projet de recherche Informations recueillies (si disponibles) :  Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE)  Propriétaire du fichier, nom du projet  Répertoire parent  Nombre de fichiers, sous-répertoires, liens  Espace utilisé, quota alloué  Date de dernière modification  Date de dernier accès Il a fallu plus de deux ans pour mettre en place l’inventaire
  • 16.
    Inventaire des données: informations actuellement moissonnées 16 Propriét aire Fichiers Espace utilisé Répertoire parent Date de dernier accès Date de dernière modification Quota AFS    Par utilisateur  Par utilisateur  Par utilisateur  DCACHE  Par projet  HPSS    Par utilisateur  Par utilisateur  Par utilisateur IRODS    Par utilisateur GPFS    Par utilisateur  Par projet  Ces informations sont indispensables pour une curation efficace des données. Vocabulaire : curation = l'ensemble des activités et opérations nécessaires à une gestion active des données de recherche numériques
  • 17.
    Un point annuelsur les données 17 Le point sur les données a pour but d’identifier les actions de curation prioritaires  Réalisé avec le(s) responsable(s) des données au moins une fois par an  Difficile à organiser avec 170 groupes de recherche répartis dans le monde o Réunion au CCIN2P3 ou dans le laboratoire de recherche o Visio-conférence o Téléphone o Par mail  Points abordés : o Identification des comptes à fermer ou à prolonger o Identification des actions de curation prioritaires o Estimation des besoins en stockage pour l’année suivante
  • 18.
    Devenir des donnéesau CCIN2P3 18 Après la fin d’un projet, les données suivent des destins différents selon la politique du projet : Les données peuvent :  Etre supprimées  Restées accessibles en ligne pendant plusieurs années  Exportées vers une base de données communautaire  Sauvegardées avec un replica
  • 19.
    Conclusion 19  La gestiondes données est une étape devenue incontournable dans les projets scientifiques  Le Data Management Plan doit être défini en amont du projet afin d’éviter de mauvaises surprises  La pérennisation et la mise à disposition des données doit être spécifiée clairement dans le DMP d’un point de vue technique et financier  L’inventaire des données et le point annuel sont indispensables pour enclencher les actions de curation Contact : calvat(at)in2p3(dot)fr Groupe de réflexion sur le devenir des données au CCIN2P3: Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat, Rachid Lemrani, Jean-Yves Nief MERCI