Terminé l'adminstration de cluster Hadoop !
Depuis l'arrivée de la version 2.3 de Spark, il est maintenant possible de lancer des jobs sur un cluster Manager Kubernetes. Ce slot se propose de vous faire découvrir Spark sur un cluster manager Kubernetes mais pas seulement.
Il se propose également de montrer les nouvelles façons de faire du Spark sans être dépendant d'une distribution Hadoop tout en interagissant de manière sécurisée avec un stockage de masse.
Toutes ces solutions seront présentées à l'aide d'un provider de Cloud. Vous découvrirez lequel durant la présentation.
Par Bruno Bouchahoua, Architect Data chez Xebia
Toutes les informations et vidéos sur xebicon.fr
3. @Xebiconfr #Xebicon18 @votre_twitter
Plan
Industrialisation de projets Spark
Cloud
Tâche de fond
1. Contexte Data Lake + Hadoop
2. Focus sur une stratégie client
3. Stockage de masse
4. Spark + stockage de masse
5. Spark on Kubernetes
a. concept
b. local
c. managé
6. Spark in Serverless mode
7. Conclusion
5. @Xebiconfr #Xebicon18 @votre_twitter
#1 Data Lake Centric
DATA PROVIDER 1
BU 1
BU N
DATA PROVIDER 2
DATA PROVIDER 1
DATA PROVIDER 2
DATA SOURCE 1
DATA SOURCE N
INPUT
RAW
9. @Xebiconfr #Xebicon18 @votre_twitter
● Ce que nous rencontrons chez nos clients
● Ce que nous proposons pour :
○ Utiliser efficacement les technologies adaptées
○ Améliorer la flexibilité
○ Diminuer les coûts
○ Mettre en production des uses case data
10. @Xebiconfr #Xebicon18 @votre_twitter
Focus sur une stratégie client : ambitions
● Migrer des projets Hadoop dans le Cloud
● Tous nouveaux projets Big data
● Respect de la réglementation GDPR
● Etanchéité des données et des accès entre les entités
PAAS First
11. @Xebiconfr #Xebicon18 @votre_twitter
Focus sur une stratégie client : PAAS pour tous
INPUT
RAW
REFINERY
GOLD
HDI DEV HDI REC HDI PRD
PROJET 1
HDI DEV HDI REC HDI PRD
PROJET 2
HDI DEV HDI REC HDI PRD
PROJET 3
Entité 1
12. @Xebiconfr #Xebicon18 @votre_twitter
Les écueils 1/2
Liés au provider
○ Service managé par provider (roadmap)
○ Temps de démarrage d’un cluster > 20 minutes
○ Nombre de composants pas forcément utiles
○ Versions des composants
○ Infra dédiées supplémentaires ( 3 machines zookeeper )
○ Identité du cluster
13. @Xebiconfr #Xebicon18 @votre_twitter
Les écueils 2/2
liés à l’organisation
Liés à l’organisation
○ Processus d’industrialisation fastidieux (Infra As Code dépendante de la roadmap)
○ Administration du cluster compliquée
○ Coûts humain
○ Règles de sécurité internes qui interdisent les accès par API, accès publics
29. @Xebiconfr #Xebicon18 @votre_twitter
Construction de l’image
▼ Deux choses à modifier
▽ entrypoint.sh
▽ DockerFile
▼ Ne pas mettre le jar dans l’image Docker !!
▼ Mettre à disposition au choix :
▽ HTTP(S)
▽ NEXUS
▽ BLOB
▽ ZONE Kubernetes
39. @Xebiconfr #Xebicon18 @votre_twitter
On prem / IAAS CAAS PAAS/aPAAS Serverless
Google CE
AWS EC2
Azure VM
GKE
ECS
ACS → AKS
Fargate
ACI
DataProc
EMR, Glue
HDI
Conclusion
40. @Xebiconfr #Xebicon18 @votre_twitter
Conclusion
▼ Administration/monitoring/logging/alerting
▼ Colocalisation de traitements Data & de microservices
▼ Distribution optionnelle et plus systématique
▼ Liberté sur le choix de la version Spark
▼ Coût faible