12 juini 2012
                Le CC-IN2P3 au service de la recherche

                           Dominique Boutigny

                           Crédits CC-IN2P3 :
                           Laurent Caillat-Vallet
                           Jean-Yves Nief
                           Pierre Girard
                           Mattieu Puel
LHC                                Auger




         HESS
            HESS

      AMS




                Supernovae            Planck
                    Embryogenèse
      ANTARES




                                           12 juini 2012
CMS




ATLAS
  15 Petaoctets de
données brutes par an
      ALICE
            LHCb




                        12 juini 2012
Une architecture de Grille globale pour le LHC


         CC-IN2P3
                             Annecy
                                             CC-IN2P3
                             FZK      TRIUMF
           CC-IN2P3
Nantes                                                             T3 (many)
                                      RAL         T1 (11)
             ASCC
                                                  CNAF      Île de France

   Strasbourg Brookhaven      T0            PIC
                                                               T2 (~70)
                    NIKHEF
Lyon                                        Fermilab
                                   NDGF
                                                       Clermont                    Marseille



                                                                   12 juini 2012
12 juini 2012
Traitement de données en physique HEP


Les collisions de particules sont indépendantes les unes des autres
    Ø  Traitement de données : "Embarrassingly parallel problem"
    Ø  Chaque CPU (core / thread) traite un ensemble de données
    Ø  Les analyses de physique consistent à filtrer les données afin
        d'effectuer un traitement statistique

Il faut passer au crible des millions / milliards
d'enregistrements d'interactions afin de
localiser les quelques "évènements"
intéressants

Au niveau informatique il s'agit essentiellement
d'un problème d'accès aux données

Le comportement des détecteurs est modélisé         è  CPU
avec une très grande précision è Simulation        è  Accès aux données

                                                             12 juini 2012
Exemple d'accès aux données : Xrootd


                                          T1.root
              HPSS                 (5)
(4) + (5):
dynamic                      (4)         Data server:           Data server:
staging                                    Xrootd                 Xrootd

             (6):                   (6)
             random    (3)
             access                 Redirector server:
                                         Xrootd
                        (1)                              (etc…)
              Client      (2)       (1) + (2): load balancing
                                    + scalabilité
/hpss/in2p3.fr/T1.root ?
                                          Système similaire : SRM / DCache
                                                                    12 juini 2012
12 juini 2012
12 juini 2012
Ressources du CC-IN2P3
                         16 000 tâches en //




                                        8 Po LHC
                                      11 Po Total


                                           14 Po
                                 12 juini 2012
Les futures expériences d'astroparticules


                            LSST : Large Synoptic Survey Telescope
                            3.2 Gpixels – 1 image toutes les 15s
                            è 15 à 30 To de données chaque nuit




L'ensemble du ciel est
sondé 1000 fois en 10 ans




                                                Crédit : LSST Collaboration
                                                           12 juini 2012
Stockage des données dans LSST

     Solution de base : qserv

http://dev.lsstcorp.org/trac/wiki/dbQservOverview    http://www.scidb.org/

                                                    Base de données Open Source
                                                    spécifiquement conçue pour le
                                                    stockage de masses de données
                                                    scientifiques

                                                    Modèle de données basé sur des
                                                    tableaux multidimensionnels

                                                    Vise un passage à l'échelle
                                                    jusqu'à plusieurs centaines de Po
                                                    sur 1000 nœuds

                                                                      12 juini 2012
Virtualisation

La virtualisation permet de dé-corréler l’infrastructure matérielle (réelle) de
l’infrastructure présentée à l’utilisateur (virtuelle)

Sur un serveur multi-cœur, il est possible d'instancier plusieurs machines
virtuelles ayant des caractéristiques données :
     Ø  Système d'exploitation
     Ø  Environnement logiciel
     Ø  Éventuellement environnement d'analyse
La virtualisation va prendre une place de plus en plus importante dans les
centres de traitement de données
    Ø  S'affranchir au maximum des spécificités des sites pour créer des
        infrastructure adaptées aux expériences

        Cloud : IaaS           è Introduction de la virtualisation dans les
                               architectures de grille

                                                               12 juini 2012
Prototype de cloud académique au
CC-IN2P3




                                   12 juini 2012
Les briques de base

                                     L'essentiel de la ferme de calcul est
                                     constitué de châssis DELL C6100

                                     ~14 000 cœurs physiques

                                     è Oracle Grid Engine
L'essentiel du stockage DAS
est constitué de châssis DELL
R510 + MD 1200




                       4 robots de stockage de masse
                       è 200 Po accessibles via le
                       système de stockage hiérarchique
                       HPSS

                                                           12 juini 2012
Partenariat avec DELL


Mise en place d'un partenariat avec DELL

    Ø  Test de solutions innovante
         Ø  Architecture de calcul et de stockage
         Ø  Architecture réseau

    Ø  Gestion / Maitrise de l'énergie

    Ø  Plateforme GPU


Résultats des expérimentations publiés sous forme de "white paper"




                                                        12 juini 2012
Infrastructure




                 17 janvier 2012
Nouveau datacenter
Capacité pour 240 racks
   Ø  3.2 MW pour l'informatique
   Ø  +1 MW pour le datacenter
       existant




                                    17 janvier 2012

11h35 in2 p3_dominique_boutigny

  • 1.
    12 juini 2012 Le CC-IN2P3 au service de la recherche Dominique Boutigny Crédits CC-IN2P3 : Laurent Caillat-Vallet Jean-Yves Nief Pierre Girard Mattieu Puel
  • 2.
    LHC Auger HESS HESS AMS Supernovae Planck Embryogenèse ANTARES 12 juini 2012
  • 3.
    CMS ATLAS 15Petaoctets de données brutes par an ALICE LHCb 12 juini 2012
  • 4.
    Une architecture deGrille globale pour le LHC CC-IN2P3 Annecy CC-IN2P3 FZK TRIUMF CC-IN2P3 Nantes T3 (many) RAL T1 (11) ASCC CNAF Île de France Strasbourg Brookhaven T0 PIC T2 (~70) NIKHEF Lyon Fermilab NDGF Clermont Marseille 12 juini 2012
  • 5.
  • 6.
    Traitement de donnéesen physique HEP Les collisions de particules sont indépendantes les unes des autres Ø  Traitement de données : "Embarrassingly parallel problem" Ø  Chaque CPU (core / thread) traite un ensemble de données Ø  Les analyses de physique consistent à filtrer les données afin d'effectuer un traitement statistique Il faut passer au crible des millions / milliards d'enregistrements d'interactions afin de localiser les quelques "évènements" intéressants Au niveau informatique il s'agit essentiellement d'un problème d'accès aux données Le comportement des détecteurs est modélisé è  CPU avec une très grande précision è Simulation è  Accès aux données 12 juini 2012
  • 7.
    Exemple d'accès auxdonnées : Xrootd T1.root HPSS (5) (4) + (5): dynamic (4) Data server: Data server: staging Xrootd Xrootd (6): (6) random (3) access Redirector server: Xrootd (1) (etc…) Client (2) (1) + (2): load balancing + scalabilité /hpss/in2p3.fr/T1.root ? Système similaire : SRM / DCache 12 juini 2012
  • 8.
  • 9.
  • 10.
    Ressources du CC-IN2P3 16 000 tâches en // 8 Po LHC 11 Po Total 14 Po 12 juini 2012
  • 11.
    Les futures expériencesd'astroparticules LSST : Large Synoptic Survey Telescope 3.2 Gpixels – 1 image toutes les 15s è 15 à 30 To de données chaque nuit L'ensemble du ciel est sondé 1000 fois en 10 ans Crédit : LSST Collaboration 12 juini 2012
  • 12.
    Stockage des donnéesdans LSST Solution de base : qserv http://dev.lsstcorp.org/trac/wiki/dbQservOverview http://www.scidb.org/ Base de données Open Source spécifiquement conçue pour le stockage de masses de données scientifiques Modèle de données basé sur des tableaux multidimensionnels Vise un passage à l'échelle jusqu'à plusieurs centaines de Po sur 1000 nœuds 12 juini 2012
  • 13.
    Virtualisation La virtualisation permetde dé-corréler l’infrastructure matérielle (réelle) de l’infrastructure présentée à l’utilisateur (virtuelle) Sur un serveur multi-cœur, il est possible d'instancier plusieurs machines virtuelles ayant des caractéristiques données : Ø  Système d'exploitation Ø  Environnement logiciel Ø  Éventuellement environnement d'analyse La virtualisation va prendre une place de plus en plus importante dans les centres de traitement de données Ø  S'affranchir au maximum des spécificités des sites pour créer des infrastructure adaptées aux expériences Cloud : IaaS è Introduction de la virtualisation dans les architectures de grille 12 juini 2012
  • 14.
    Prototype de cloudacadémique au CC-IN2P3 12 juini 2012
  • 15.
    Les briques debase L'essentiel de la ferme de calcul est constitué de châssis DELL C6100 ~14 000 cœurs physiques è Oracle Grid Engine L'essentiel du stockage DAS est constitué de châssis DELL R510 + MD 1200 4 robots de stockage de masse è 200 Po accessibles via le système de stockage hiérarchique HPSS 12 juini 2012
  • 16.
    Partenariat avec DELL Miseen place d'un partenariat avec DELL Ø  Test de solutions innovante Ø  Architecture de calcul et de stockage Ø  Architecture réseau Ø  Gestion / Maitrise de l'énergie Ø  Plateforme GPU Résultats des expérimentations publiés sous forme de "white paper" 12 juini 2012
  • 17.
    Infrastructure 17 janvier 2012
  • 18.
    Nouveau datacenter Capacité pour240 racks Ø  3.2 MW pour l'informatique Ø  +1 MW pour le datacenter existant 17 janvier 2012