Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules
Problématique du devenir des d...
Plan
2
 L’avalanche numérique dans tous les domaines
 Présentation du Centre de calcul CCIN2P3
 Plan de management des ...
L’avalanche numérique dans tous les domaines
3
Dans l’ensemble des disciplines scientifiques, les instruments de recherche...
Le détecteur ATLAS au CERN (Genève)
4
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produise...
L’avalanche numérique dans tous les domaines
5
Biologie – Séquenceur haut débit
BNF (Paris)
• Numérisation d’ouvrages
• 10...
Avalanche numérique : besoin de ressources informatiques mutualisées
Titre de la présentation 6
Pour faire face à cette av...
Avantages d’une bonne gestion des données
Titre de la présentation Date 7
Mener un projet de recherche à son terme
Evite...
Le Centre de calcul de l’IN2P3 en quelques mots
8
8
L’IN2P3 dispose d’un centre de calcul,
le CCIN2P3, installé à Lyon dep...
Le CCIN2P3 : un gigantesque entrepôt de données
9
9
25 Po
Disque
20 000 cœurs de calcul pour
l’analyse des données et les
...
Le CCIN2P3 : un gigantesque entrepôt de données
10
Utilisateurs répartis dans différentes disciplines :
 Physique nucléa...
Le CCIN2P3 : Type de fichiers
11
 Fichiers de données avec tout type de format
◦ Raw data (appareil de mesure, relevé de ...
Gestion des données : le Data Management Plan
12
Pour une gestion correcte des données, chaque projet devrait
définir un p...
Gestion des données: le plan de management « en vigueur » au CCIN2P3
13
 DMP (Data Management Plan) par défaut au CCIN2P3...
Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur
14
 Qualités
- Données accessibles en temps réel
- Gara...
L’inventaire des données
15
Un inventaire des données est réalisé quotidiennement sur
l’ensemble des systèmes de stockage ...
Inventaire des données : informations actuellement moissonnées
16
Propriét
aire
Fichiers Espace utilisé Répertoire
parent
...
Un point annuel sur les données
17
Le point sur les données a pour but d’identifier les actions de curation
prioritaires
...
Devenir des données au CCIN2P3
18
Après la fin d’un projet, les données suivent des destins
différents selon la politique ...
Conclusion
19
 La gestion des données est une étape devenue incontournable dans les projets
scientifiques
 Le Data Manag...
Prochain SlideShare
Chargement dans…5
×

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

1 146 vues

Publié le

Problématique du devenir des données au Centre de Calcul de l'IN2P3
Pascal CALVAT, 16 Janvier 2015

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 146
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
21
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

  1. 1. Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules Problématique du devenir des données au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015
  2. 2. Plan 2  L’avalanche numérique dans tous les domaines  Présentation du Centre de calcul CCIN2P3  Plan de management des données au CCIN2P3 Pistes d’améliorations de la gestion des données :  Inventaire des données  Point annuel avec les responsables des données
  3. 3. L’avalanche numérique dans tous les domaines 3 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scan de l’ensemble du ciel en trois nuits (démarrage 2020) •150 Po de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue publique • http://www.lsst.org/ Physique des particules - LHC (CERN - Genève) Astronomie - LSST (Chili) Quelques exemples :
  4. 4. Le détecteur ATLAS au CERN (Genève) 4 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scanne de l’ensemble du ciel en trois nuits (démarrage 2020) •150 de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue public • http://www.lsst.org/ Physique des particules - LHC (CERN - Geneve) Astronomie - LSST (Chili) Quelques exemples :
  5. 5. L’avalanche numérique dans tous les domaines 5 Biologie – Séquenceur haut débit BNF (Paris) • Numérisation d’ouvrages • 100 To par an • Archivage pérenne • Service de diffusion de données • http://www.bnf.fr • Séquençage de l’ADN • 1 Po pour la plateforme informatique • Machine de calcul parallèle • Plusieurs To de mémoire pour l’analyse • Données rendues publiques • http://bioinfo.genotoul.fr/
  6. 6. Avalanche numérique : besoin de ressources informatiques mutualisées Titre de la présentation 6 Pour faire face à cette avalanche numérique, les chercheurs doivent avoir accès à des ressources informatiques mutualisées. Laboratoire Centre de calcul Grille de calcul (plusieurs centres de calculs) La gestion des données numériques devient un point incontournable dans la réussite des projets scientifiques
  7. 7. Avantages d’une bonne gestion des données Titre de la présentation Date 7 Mener un projet de recherche à son terme Eviter la perte de données uniques ou difficilement reproductibles Accélérer la recherche en mutualisant les efforts dans les équipes de recherche Améliorer la qualité des données en réduisant les données orphelines Intensifier la collaboration entre chercheurs en accédant à des données structurées en ligne (gratuites ou pas) Continuer à exploiter des données après la fin des projets : Exploiter les données après l’arrêt d’un accélérateur Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux) Réduire les dépenses informatiques Quels sont les avantages d’une bonne gestion des données?
  8. 8. Le Centre de calcul de l’IN2P3 en quelques mots 8 8 L’IN2P3 dispose d’un centre de calcul, le CCIN2P3, installé à Lyon depuis 1986 La mission du CCIN2P3 est de fournir des services informatiques aux laboratoires de l’IN2P3 (CNRS) et l’IRFU (CEA) Ouverture vers la biologie et les sciences humaines et sociales 60 ingénieurs informaticiens Services disponibles 24h/24 IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
  9. 9. Le CCIN2P3 : un gigantesque entrepôt de données 9 9 25 Po Disque 20 000 cœurs de calcul pour l’analyse des données et les simulations Bandes magnétiques 15 Po sur disque Calcul
  10. 10. Le CCIN2P3 : un gigantesque entrepôt de données 10 Utilisateurs répartis dans différentes disciplines :  Physique nucléaire et des particules (LHC au CERN)  Astrophysique  Ouverture interdisciplinaire : biologie, écologie, sciences humaines et sociales (Huma-Num) Au total :  2500 utilisateurs répartis dans 170 groupes de recherche (groupe = projet scientifique)  40 Po répartis dans différentes technologies de stockage Technologie Espace occupé Fichier en millions GPFS 1.5 Po 476 AFS 3.5 To 3.5 HPSS 25 Po 49 iRODS 9 Po 60 DCACHE 8 Po - TSM 1 Po -
  11. 11. Le CCIN2P3 : Type de fichiers 11  Fichiers de données avec tout type de format ◦ Raw data (appareil de mesure, relevé de terrain) ◦ Banques de données communautaires ◦ Simulation ◦ Analyse  Programmes informatiques (liés à un langage et un environnement d’exécution)  Codes de gestion du workflow ◦ Lancement des calculs ◦ Traitement sur les données (transfert, fusion de données) Comment gérer efficacement une telle diversité de données?
  12. 12. Gestion des données : le Data Management Plan 12 Pour une gestion correcte des données, chaque projet devrait définir un plan de gestion de données  Le Data Management Plan (DMP) formalise la façon de gérer les données liées à un projet de recherche - Description des données, des métadonnées et du format - Description du cycle de vie des données y compris après le projet - Détail de la politique associée aux données (accès, diffusion, confidentialité) - Aspects budgétaires  Exemple de DMP en français issu du projet Horizon 2020 : http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p gd_horizon_2020_tr_fr.pdf
  13. 13. Gestion des données: le plan de management « en vigueur » au CCIN2P3 13  DMP (Data Management Plan) par défaut au CCIN2P3 : o Recopie des données sur des supports récents. Cette opération est effectuée de manière transparente par les experts du Centre de calcul. o Les données sont accessibles pendant la durée du projet o Pas de campagne systématique d'effacement des données (sauf demande explicite) y compris en fin de projet o Certaines zones de stockage peuvent être sauvegardées à la demande o Désignation d’un responsable des données par projet o Respect des engagements du MoU (Memorandum of understanding). oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou Les projets scientifiques disposent rarement d’un plan de management des données. Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté sur la préservation des octets et l’accès en ligne aux données
  14. 14. Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur 14  Qualités - Données accessibles en temps réel - Garantie de relire les données dans le futur sur des médias récents - Perte de temps minimale concernant la gestion des données - Gain de temps pour faire de la recherche et écrire des publications  Faiblesses - Le CCIN2P3 ne connaît pas la criticité des données stockées - Données temporaires ou orphelines pas supprimées entièrement - Difficulté d’identification du propriétaire des données pour les projets terminés - Lourdeur de la migration des données - Pas de stockage au sens archivistique du terme  Réaliser un inventaire des données stockées au CCIN2P3  Faire un point annuel entre le CCIN2P3 et les responsables des données côté projet Pistes d’amélioration de la gestion des données :
  15. 15. L’inventaire des données 15 Un inventaire des données est réalisé quotidiennement sur l’ensemble des systèmes de stockage du centre (40 Po) Cet inventaire est à destination des ingénieurs du centre pour avoir une vue détaillée des données, mais aussi à destination des responsables des données dans le projet de recherche Informations recueillies (si disponibles) :  Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE)  Propriétaire du fichier, nom du projet  Répertoire parent  Nombre de fichiers, sous-répertoires, liens  Espace utilisé, quota alloué  Date de dernière modification  Date de dernier accès Il a fallu plus de deux ans pour mettre en place l’inventaire
  16. 16. Inventaire des données : informations actuellement moissonnées 16 Propriét aire Fichiers Espace utilisé Répertoire parent Date de dernier accès Date de dernière modification Quota AFS    Par utilisateur  Par utilisateur  Par utilisateur  DCACHE  Par projet  HPSS    Par utilisateur  Par utilisateur  Par utilisateur IRODS    Par utilisateur GPFS    Par utilisateur  Par projet  Ces informations sont indispensables pour une curation efficace des données. Vocabulaire : curation = l'ensemble des activités et opérations nécessaires à une gestion active des données de recherche numériques
  17. 17. Un point annuel sur les données 17 Le point sur les données a pour but d’identifier les actions de curation prioritaires  Réalisé avec le(s) responsable(s) des données au moins une fois par an  Difficile à organiser avec 170 groupes de recherche répartis dans le monde o Réunion au CCIN2P3 ou dans le laboratoire de recherche o Visio-conférence o Téléphone o Par mail  Points abordés : o Identification des comptes à fermer ou à prolonger o Identification des actions de curation prioritaires o Estimation des besoins en stockage pour l’année suivante
  18. 18. Devenir des données au CCIN2P3 18 Après la fin d’un projet, les données suivent des destins différents selon la politique du projet : Les données peuvent :  Etre supprimées  Restées accessibles en ligne pendant plusieurs années  Exportées vers une base de données communautaire  Sauvegardées avec un replica
  19. 19. Conclusion 19  La gestion des données est une étape devenue incontournable dans les projets scientifiques  Le Data Management Plan doit être défini en amont du projet afin d’éviter de mauvaises surprises  La pérennisation et la mise à disposition des données doit être spécifiée clairement dans le DMP d’un point de vue technique et financier  L’inventaire des données et le point annuel sont indispensables pour enclencher les actions de curation Contact : calvat(at)in2p3(dot)fr Groupe de réflexion sur le devenir des données au CCIN2P3: Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat, Rachid Lemrani, Jean-Yves Nief MERCI

×