SlideShare une entreprise Scribd logo
1  sur  55
Télécharger pour lire hors ligne
1
From Big Data to Big Science
Pierre-Marie Brunet,
Responsable du pôle HPC, CNES DSI/DV/AR
2
 Présentation du pôle HPC
 Introduction au BigProcessing
 Trois perspectives selon trois projets
 Interopérabilité entre centres de calcul
3
Deux grandes classes de calcul
 Simulation numérique (HPC)
 Recherche, phase amont des projets
 Optimisation algorithmique très poussée:
“proche du matériel
 Parallélisme à grain fin
 Traitement de données (HTC)
 Phase aval, traitement des données générées
par capteurs
 Données brutes des capteurs => données
intelligibles par scientifiques
 Parallélisme gros grain
Pôle calcul intensif du CNES
4
Datacenter
5
Infrastructure primaire
6
 Présentation du pôle HPC
 Introduction au BigProcessing
 Trois perspectives selon trois projets
 Interopérabilité entre centres de calcul
7
HPC et BigData
8
Présentation DCT
Contexte du Processing spatial
Le segment spatial
Le satellite
Les instruments
La plateforme / Les servitudes
Stations TM/TC Stations TMCU
Le segment sol
Segment sol de MissionSegment sol de
Commande Contrôle
Les utilisateurs
Le lanceur
9
Big Processing
Au cnes
Demain
Aujourd’hui
Hier
BigProcessing
Big problématiques
 Déplacement des données (acquisition / diffusion)
 Accès intelligent aux données (cataloguées/classées pour être utilisées)
 Exigences de distribution des données/traitements à l’échelle ESA
 Cacher la complexité croissante des centres de mission
 Offrir des interfaces de développement simples
 Application des politiques de sécurité publique (PPST, PSSIE)
 Présentation du pôle HPC
 Introduction au BigProcessing
 Trois perspectives selon trois projets
 Interopérabilité entre centres de calcul
12
GaiaEnjeux scientifiques
• Produire une cartographie
3D de notre proche galaxie
• Localisation de plus d’un
milliard d’objets avec une
précision inégalée
• Détermination des
paramètres
stellaires/astrophysiques
Focus sur les techniques de
développement
CRIP – 16/10/201313
Les chiffres:
- 10 chaines scientifiques
- 3Po de données
- 290 milliards d’entrée dans la
base de données
- Complexité des requêtes d’accès
- Plus de 1000 connexions
concurrentes à la base
Le développement:
- Language Java
- Pas de parallélisme (géré à haut niveau)
- Concept Façade
- Algorithmes scientifiques en boite noire
- Unification de l’invocation des modules
- Abstraction de l’accès aux données
L’architecture
- 6 datacenters impliqués
- Répartition statique des données
- Répartition statique des traitements
14
Etude technologique (2011-2012)
 Première architecture : données centralisées
» Stockage sur une baie SAN
» Accès concurrents à la BD PostgreSQL
» Traitements sur nœuds de calcul « classiques »
Architecture logicielle
point bloquant identifié
 Benchmark nouvelles technologies
» Performance
» Scalabilité de la solution
» Fiabilité (data safety)
» Impacts sur l’existant (software et hardware)
» Coût global
» Pérennité de la solution
» Exploitation de la solution
15
Hadoop & Cascading
Seconde architecture : données distribuées
 Hadoop :
 Batch execution framework : paradigme Map/Reduce (calcul parallèle gros grain)
 Système de fichier parallèle HDFS
 Avantages :
 Performance
 Scalabilité
 Ecosystème logiciel Hadoop
Calcul
Stockage
Rapprocher le calcul
des données
16
Hadoop & Cascading
Map/Reduce paradigm
UC BerkeleyX courses, Spark lectures
17
Cascading
 API Java pour les developpeurs au dessus de la couche Hadoop MapReduce
 Process Cascading sont traduits “à la volée” en tâches Map Reduce (5%
d’overhead constaté)
 Permet des opérations complexes (proches de SQL : join, group,…) sans
penser en MapReduce
Hadoop & Cascading
18
Exemple
Requête SQL
Requête M/R (15 étapes)
Requête Cascading (7 étapes)
19
1ère leçon : Ca marche ! Mais quelques pistes d’optimisation
 Hadoop v1 : problème intrinsèque de performance
» Synchronisation parallèle par… les I/O Mappers & Reducers fixes
 Passsage à Hadoop v2
» Meilleure utilisation du hardware (cœurs de calcul)
» Upgrade toujours délicat sur une plateforme de production
REX Gaia
20
1ère leçon : Ca marche ! Mais quelques pistes d’optimisation
 Quantité de logs difficilement exploitable (métier, middleware, système).
Résolution d’incident complexe.
REX Gaia
R&T Fouille de données (w/ Atos)
21
1ère leçon : Ca marche ! Mais quelques pistes d’optimisation
 Quantité de logs difficilement exploitable (métier, middleware, système).
Résolution d’incident complexe.
REX Gaia
R&T Fouille de données (w/ Atos)
22
1ère leçon : Ca marche ! Mais quelques pistes d’optimisation
 Quantité de logs difficilement exploitable (métier, middleware, système).
Résolution d’incident complexe.
REX Gaia
R&T Fouille de données (w/ Atos)
23
Si on repartait à zéro…
 Nouvelles approches BigProcessing : InMemory
REX Gaia 2015
UC BerkeleyX courses, Spark lectures UC BerkeleyX courses, Spark lectures
EUCLID
24
Cartographier la géométrie de l’Univers Sombre
L’expansion de l’univers accélère !
L’accélération de l’univers
est dûe à l’énergie sombre
Focus sur l’architecture
du centre de mission
25
Concepts clefs d’architecture
 « cluster de clusters » : pas de centralisation de datacenter
 Distribution des données et du calcul
 Déplacer les calculs et non les données
 Les codes de calcul doivent pouvoir être exécutés sur toutes les plateformes
 Séparation des métadonnées des données (base de métadonnée centralisée)
 Deux niveaux de parallélisation
 Bas niveau : sur les tuiles (ensemble minimal de données traitable couvrant une
portion de ciel donnée) constituant des catalogues d’objets
 Haut niveau : cross matching/correlation
EUCLID
Mission
Operations
Centre
External
Data
Providers
Science
Operations
Centre
Public
Data
Level 1
Data Files
Metadata
(prime)
SDC-NL
Raw EXT
Data
Data
Files
Metadata
(backup)
SDC-DE
Raw EXT
Data
Data
Files
SDC-CH
Data
Files
SDC-ES
Data
Files
SDC-US
Data
Files
SDC-UK
Data
Files
SDC-FI
Data
Files
SDC-FR
Data
Files
Raw EXT
Data (TBC)
Sky allocation through Coordinator
EUCLID
Architecture
DB
Euclid Archive
Metadata
Storage System
Euclid Archive
Orchestration,
Monitoring &
Control
Computing
Infrastructure for
Processing Tasks
Manage Processing Tasks:
fetch/enhance/ingest data
configure/submit tasks
SDC
File
s
Euclid Archive
Data Storage
System
Infrastructure Abstraction
Layer
CODEEN
Managing and
Deploying Software
other SDCSOC
EUCLID
Architecture
28
Plateforme d’Exploitation des Produits Sentinels :
• accès libre et gratuit aux données via portail web.
• capacité de traitement sur les données.
PEPS
Focus sur les technologies
de stockage
Eléments directeurs
 Infrastructure de stockage
hautement scalable
 Profil d’utilisation fonction de l’intérêt
(temps, localisation, etc.)
 Fort couplage avec cluster de calcul
Architecture informatique CNES
Besoin de technologie de stockage…
… du futur
31
Disques vs bandes
Disque Bande
Bande passante 150 Mo/s 350Mo/s
Latence 6ms 60s
Capacité 8To 10To
Evolution 20To * 120 To
Durée de vie (REX) 3-5 ans 10-20 ans
Coût ($/To) 30 - 50 12 - 20
Consommation (idle) 6-8W 0W
32
2 Po
6To480 x
Bases DB2
Core Server VFS Servers
2 x baies NetApp E5560
2 x baies NetApp E2724
DataMovers
Cache disque HPSS
Stockage bande
IBM TS4500
6 x Jaguar 5
14 Po
Méta données
HPSS
2 x Dell R730
vue filesystem
NFS
FTP
ou pFTP
Dell R730 Dell R730
10Gbe
10Gbe
10Gbe
SAS
SAS FC
Accès utilisateurs
10Gbe
10 Gbe
Staging
Migration
ForumHPC – CLS – 15/10/201533
2015
34
 Présentation du pôle HPC
 Introduction au BigProcessing
 Trois perspectives selon trois projets
 Interopérabilité entre centres de calcul
35
Interopérabilité
Objectifs
Exécuter un traitement sur « n’importe quel
centre de calcul » ou comment abstraire une
infrastructure de calcul parallèle…
Permettre aux développeurs de déposer des
traitements au plus proche de la donnée « sans
contrainte ».
36
Concepts clefs d’une plateforme fédérée
 Cacher la complexité !
Les scientifiques/développeurs doivent se concentrer sur les algorithmes
Notion de notebook pour les maquettages rapides
 Un seul portail pour accéder/télécharger/traiter les données
 Multi paradigmes (Spark, MPI, OpenMP, etc.)
 Interfaces génériques pour :
 rechercher et décrire la donnée
 lancer un traitement
 échanger des données entre centres de calcul
 exécuter des codes de calcul
37
Exploitation des Données Interopérables Multicentres
Euclid
38
Euclid
Bilbio :
- Wes. Felter, Alexandre. Ferreira, Ram. Rajamony and Juan. Rubio, “An Updated Performance Comparison of Virtual
Machines and Linux Containers” IBM Research Report, vol. 28, July, 2014
- MORABITO, Roberto, KJÄLLMAN, Jimmy, et KOMU, Miika. Hypervisors vs. Lightweight Virtualization: a Performance
Comparison.
Passer des applications aux containers applicatifs
39
Euclid
Performance container vs exécution native
40
Prototypage R&T multicentre
15/03/201640
41
results
15/03/201641
42
results
15/03/201642
43
results
15/03/201643
44 15/03/201644
Prototypage R&T multicentre
45 15/03/201645
Prototypage R&T multicentre
46 15/03/201646
Prototypage R&T multicentre
47 15/03/201647
48 15/03/201648
49 15/03/201649
Prototypage R&T multicentre
50
Results
15/03/201650
51
Exploitation des Données Interopérables Multicentres
Euclid
REX Prototype
 Fonctionnel mais pas industrialisable
 Les batch/schedulers HPC ont pris le train en marche
» PBSPro compatible Docker
 Proactive en tant que metascheduler
52
Cas d’utilisation « cluster de clusters »
Euclid
PBSPro
v13
Hadoop
Amazon,
Openstack,
etc.
Slurm
Chronos/
Mesos
Proactive
jobs
53
Conclusion
 Convergence du HPC et BigData
 Les données sont de moins en moins transportables,
besoin d’avoir des portails thématiques (visualisation,
traitement)
 Les algorithmes sont la vraie valeur ajoutée, besoin de
les mettre au centre des plateformes
 REX CNES : travailler en mémoire, distribuer
dynamiquement les calculs, considérer les stockages
hiérarchiques passé un certain seuil
54
Pour aller plus loin…
Contact :
jerome.gasperi@cnes.fr
pierre-marie.brunet@cnes.fr
R&T CNES
https://rt-theses.cnes.fr
Présentation générale du CNES – Janvier 201555
Merci pour votre attention

Contenu connexe

Tendances

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Avenir des grilles - F. Desprez
Avenir des grilles - F. DesprezAvenir des grilles - F. Desprez
Avenir des grilles - F. DesprezFrederic Desprez
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une IntroductionNicolas OGÉ
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in ParisTed Drake
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi
 

Tendances (20)

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Avenir des grilles - F. Desprez
Avenir des grilles - F. DesprezAvenir des grilles - F. Desprez
Avenir des grilles - F. Desprez
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une Introduction
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Big data architectures
Big data architecturesBig data architectures
Big data architectures
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 

Similaire à 20160216 - From BigData to BigProcessing

IT Customer Solution Architect
IT Customer Solution ArchitectIT Customer Solution Architect
IT Customer Solution ArchitecticVatant
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]ANEO
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...Patrick Guimonet
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure PackLe cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure PackMicrosoft Décideurs IT
 
11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutignystephanfrancois
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...Nicolas Desachy
 
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECRetour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECMicrosoft Technet France
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Antoine Poliakov
 
manuel_servais_2012-2013_defence_stage_IAGL
manuel_servais_2012-2013_defence_stage_IAGLmanuel_servais_2012-2013_defence_stage_IAGL
manuel_servais_2012-2013_defence_stage_IAGLManuel Servais
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
ASD2020-05b-MBSE-EricThomas.pdf
ASD2020-05b-MBSE-EricThomas.pdfASD2020-05b-MBSE-EricThomas.pdf
ASD2020-05b-MBSE-EricThomas.pdfxmumiao
 

Similaire à 20160216 - From BigData to BigProcessing (20)

IT Customer Solution Architect
IT Customer Solution ArchitectIT Customer Solution Architect
IT Customer Solution Architect
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure PackLe cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
 
Inf208
Inf208Inf208
Inf208
 
Architectures bigdata
Architectures bigdataArchitectures bigdata
Architectures bigdata
 
11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
 
Grid computing
Grid computingGrid computing
Grid computing
 
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELECRetour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
Retour d'expérience BIG COMPUTE & HPC sur Windows Azure, par ANEO et SUPELEC
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Base de données
Base de donnéesBase de données
Base de données
 
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
 
OWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer lightOWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer light
 
manuel_servais_2012-2013_defence_stage_IAGL
manuel_servais_2012-2013_defence_stage_IAGLmanuel_servais_2012-2013_defence_stage_IAGL
manuel_servais_2012-2013_defence_stage_IAGL
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
ASD2020-05b-MBSE-EricThomas.pdf
ASD2020-05b-MBSE-EricThomas.pdfASD2020-05b-MBSE-EricThomas.pdf
ASD2020-05b-MBSE-EricThomas.pdf
 

20160216 - From BigData to BigProcessing

  • 1. 1 From Big Data to Big Science Pierre-Marie Brunet, Responsable du pôle HPC, CNES DSI/DV/AR
  • 2. 2  Présentation du pôle HPC  Introduction au BigProcessing  Trois perspectives selon trois projets  Interopérabilité entre centres de calcul
  • 3. 3 Deux grandes classes de calcul  Simulation numérique (HPC)  Recherche, phase amont des projets  Optimisation algorithmique très poussée: “proche du matériel  Parallélisme à grain fin  Traitement de données (HTC)  Phase aval, traitement des données générées par capteurs  Données brutes des capteurs => données intelligibles par scientifiques  Parallélisme gros grain Pôle calcul intensif du CNES
  • 6. 6  Présentation du pôle HPC  Introduction au BigProcessing  Trois perspectives selon trois projets  Interopérabilité entre centres de calcul
  • 8. 8 Présentation DCT Contexte du Processing spatial Le segment spatial Le satellite Les instruments La plateforme / Les servitudes Stations TM/TC Stations TMCU Le segment sol Segment sol de MissionSegment sol de Commande Contrôle Les utilisateurs Le lanceur
  • 10. BigProcessing Big problématiques  Déplacement des données (acquisition / diffusion)  Accès intelligent aux données (cataloguées/classées pour être utilisées)  Exigences de distribution des données/traitements à l’échelle ESA  Cacher la complexité croissante des centres de mission  Offrir des interfaces de développement simples  Application des politiques de sécurité publique (PPST, PSSIE)
  • 11.  Présentation du pôle HPC  Introduction au BigProcessing  Trois perspectives selon trois projets  Interopérabilité entre centres de calcul
  • 12. 12 GaiaEnjeux scientifiques • Produire une cartographie 3D de notre proche galaxie • Localisation de plus d’un milliard d’objets avec une précision inégalée • Détermination des paramètres stellaires/astrophysiques Focus sur les techniques de développement
  • 13. CRIP – 16/10/201313 Les chiffres: - 10 chaines scientifiques - 3Po de données - 290 milliards d’entrée dans la base de données - Complexité des requêtes d’accès - Plus de 1000 connexions concurrentes à la base Le développement: - Language Java - Pas de parallélisme (géré à haut niveau) - Concept Façade - Algorithmes scientifiques en boite noire - Unification de l’invocation des modules - Abstraction de l’accès aux données L’architecture - 6 datacenters impliqués - Répartition statique des données - Répartition statique des traitements
  • 14. 14 Etude technologique (2011-2012)  Première architecture : données centralisées » Stockage sur une baie SAN » Accès concurrents à la BD PostgreSQL » Traitements sur nœuds de calcul « classiques » Architecture logicielle point bloquant identifié  Benchmark nouvelles technologies » Performance » Scalabilité de la solution » Fiabilité (data safety) » Impacts sur l’existant (software et hardware) » Coût global » Pérennité de la solution » Exploitation de la solution
  • 15. 15 Hadoop & Cascading Seconde architecture : données distribuées  Hadoop :  Batch execution framework : paradigme Map/Reduce (calcul parallèle gros grain)  Système de fichier parallèle HDFS  Avantages :  Performance  Scalabilité  Ecosystème logiciel Hadoop Calcul Stockage Rapprocher le calcul des données
  • 16. 16 Hadoop & Cascading Map/Reduce paradigm UC BerkeleyX courses, Spark lectures
  • 17. 17 Cascading  API Java pour les developpeurs au dessus de la couche Hadoop MapReduce  Process Cascading sont traduits “à la volée” en tâches Map Reduce (5% d’overhead constaté)  Permet des opérations complexes (proches de SQL : join, group,…) sans penser en MapReduce Hadoop & Cascading
  • 18. 18 Exemple Requête SQL Requête M/R (15 étapes) Requête Cascading (7 étapes)
  • 19. 19 1ère leçon : Ca marche ! Mais quelques pistes d’optimisation  Hadoop v1 : problème intrinsèque de performance » Synchronisation parallèle par… les I/O Mappers & Reducers fixes  Passsage à Hadoop v2 » Meilleure utilisation du hardware (cœurs de calcul) » Upgrade toujours délicat sur une plateforme de production REX Gaia
  • 20. 20 1ère leçon : Ca marche ! Mais quelques pistes d’optimisation  Quantité de logs difficilement exploitable (métier, middleware, système). Résolution d’incident complexe. REX Gaia R&T Fouille de données (w/ Atos)
  • 21. 21 1ère leçon : Ca marche ! Mais quelques pistes d’optimisation  Quantité de logs difficilement exploitable (métier, middleware, système). Résolution d’incident complexe. REX Gaia R&T Fouille de données (w/ Atos)
  • 22. 22 1ère leçon : Ca marche ! Mais quelques pistes d’optimisation  Quantité de logs difficilement exploitable (métier, middleware, système). Résolution d’incident complexe. REX Gaia R&T Fouille de données (w/ Atos)
  • 23. 23 Si on repartait à zéro…  Nouvelles approches BigProcessing : InMemory REX Gaia 2015 UC BerkeleyX courses, Spark lectures UC BerkeleyX courses, Spark lectures
  • 24. EUCLID 24 Cartographier la géométrie de l’Univers Sombre L’expansion de l’univers accélère ! L’accélération de l’univers est dûe à l’énergie sombre Focus sur l’architecture du centre de mission
  • 25. 25 Concepts clefs d’architecture  « cluster de clusters » : pas de centralisation de datacenter  Distribution des données et du calcul  Déplacer les calculs et non les données  Les codes de calcul doivent pouvoir être exécutés sur toutes les plateformes  Séparation des métadonnées des données (base de métadonnée centralisée)  Deux niveaux de parallélisation  Bas niveau : sur les tuiles (ensemble minimal de données traitable couvrant une portion de ciel donnée) constituant des catalogues d’objets  Haut niveau : cross matching/correlation EUCLID
  • 26. Mission Operations Centre External Data Providers Science Operations Centre Public Data Level 1 Data Files Metadata (prime) SDC-NL Raw EXT Data Data Files Metadata (backup) SDC-DE Raw EXT Data Data Files SDC-CH Data Files SDC-ES Data Files SDC-US Data Files SDC-UK Data Files SDC-FI Data Files SDC-FR Data Files Raw EXT Data (TBC) Sky allocation through Coordinator EUCLID Architecture
  • 27. DB Euclid Archive Metadata Storage System Euclid Archive Orchestration, Monitoring & Control Computing Infrastructure for Processing Tasks Manage Processing Tasks: fetch/enhance/ingest data configure/submit tasks SDC File s Euclid Archive Data Storage System Infrastructure Abstraction Layer CODEEN Managing and Deploying Software other SDCSOC EUCLID Architecture
  • 28. 28 Plateforme d’Exploitation des Produits Sentinels : • accès libre et gratuit aux données via portail web. • capacité de traitement sur les données. PEPS Focus sur les technologies de stockage
  • 29. Eléments directeurs  Infrastructure de stockage hautement scalable  Profil d’utilisation fonction de l’intérêt (temps, localisation, etc.)  Fort couplage avec cluster de calcul Architecture informatique CNES
  • 30. Besoin de technologie de stockage… … du futur
  • 31. 31 Disques vs bandes Disque Bande Bande passante 150 Mo/s 350Mo/s Latence 6ms 60s Capacité 8To 10To Evolution 20To * 120 To Durée de vie (REX) 3-5 ans 10-20 ans Coût ($/To) 30 - 50 12 - 20 Consommation (idle) 6-8W 0W
  • 32. 32 2 Po 6To480 x Bases DB2 Core Server VFS Servers 2 x baies NetApp E5560 2 x baies NetApp E2724 DataMovers Cache disque HPSS Stockage bande IBM TS4500 6 x Jaguar 5 14 Po Méta données HPSS 2 x Dell R730 vue filesystem NFS FTP ou pFTP Dell R730 Dell R730 10Gbe 10Gbe 10Gbe SAS SAS FC Accès utilisateurs 10Gbe 10 Gbe Staging Migration
  • 33. ForumHPC – CLS – 15/10/201533 2015
  • 34. 34  Présentation du pôle HPC  Introduction au BigProcessing  Trois perspectives selon trois projets  Interopérabilité entre centres de calcul
  • 35. 35 Interopérabilité Objectifs Exécuter un traitement sur « n’importe quel centre de calcul » ou comment abstraire une infrastructure de calcul parallèle… Permettre aux développeurs de déposer des traitements au plus proche de la donnée « sans contrainte ».
  • 36. 36 Concepts clefs d’une plateforme fédérée  Cacher la complexité ! Les scientifiques/développeurs doivent se concentrer sur les algorithmes Notion de notebook pour les maquettages rapides  Un seul portail pour accéder/télécharger/traiter les données  Multi paradigmes (Spark, MPI, OpenMP, etc.)  Interfaces génériques pour :  rechercher et décrire la donnée  lancer un traitement  échanger des données entre centres de calcul  exécuter des codes de calcul
  • 37. 37 Exploitation des Données Interopérables Multicentres Euclid
  • 38. 38 Euclid Bilbio : - Wes. Felter, Alexandre. Ferreira, Ram. Rajamony and Juan. Rubio, “An Updated Performance Comparison of Virtual Machines and Linux Containers” IBM Research Report, vol. 28, July, 2014 - MORABITO, Roberto, KJÄLLMAN, Jimmy, et KOMU, Miika. Hypervisors vs. Lightweight Virtualization: a Performance Comparison. Passer des applications aux containers applicatifs
  • 51. 51 Exploitation des Données Interopérables Multicentres Euclid REX Prototype  Fonctionnel mais pas industrialisable  Les batch/schedulers HPC ont pris le train en marche » PBSPro compatible Docker  Proactive en tant que metascheduler
  • 52. 52 Cas d’utilisation « cluster de clusters » Euclid PBSPro v13 Hadoop Amazon, Openstack, etc. Slurm Chronos/ Mesos Proactive jobs
  • 53. 53 Conclusion  Convergence du HPC et BigData  Les données sont de moins en moins transportables, besoin d’avoir des portails thématiques (visualisation, traitement)  Les algorithmes sont la vraie valeur ajoutée, besoin de les mettre au centre des plateformes  REX CNES : travailler en mémoire, distribuer dynamiquement les calculs, considérer les stockages hiérarchiques passé un certain seuil
  • 54. 54 Pour aller plus loin… Contact : jerome.gasperi@cnes.fr pierre-marie.brunet@cnes.fr R&T CNES https://rt-theses.cnes.fr
  • 55. Présentation générale du CNES – Janvier 201555 Merci pour votre attention