Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur

@Xebiconfr #Xebicon18 @votre_twitter
Build the future
Spark in jail
Data/Cloud
Bruno Bouchahoua

Qui suis-je ?
Bruno Bouchahoua
Data Architect

Plan
Industrialisation de projets Spark
Cloud
Tâche de fond
1. Contexte Data Lake + Hadoop
2. Focus sur une stratégie client
3. Stockage de masse
4. Spark + stockage de masse
5. Spark on Kubernetes
a. concept
b. local
c. managé
6. Spark in Serverless mode
7. Conclusion

Contexte Data Lake
&
Cluster Hadoop

#1 Data Lake Centric
DATA PROVIDER 1
BU 1
BU N
DATA PROVIDER 2
DATA PROVIDER 1
DATA PROVIDER 2
DATA SOURCE 1
DATA SOURCE N
INPUT
RAW

#2 Traitements de données

On prem / IAAS CAAS PAAS/aPAAS Serverless
Google CE
AWS EC2
Azure VM
GKE
ECS
ACS → AKS
Fargate
ACI
DataProc
EMR, Glue
HDI
#3 Mode d’exécution de Spark + Cloud

Focus sur
une stratégie client

● Ce que nous rencontrons chez nos clients
● Ce que nous proposons pour :
○ Utiliser efficacement les technologies adaptées
○ Améliorer la flexibilité
○ Diminuer les coûts
○ Mettre en production des uses case data

Focus sur une stratégie client : ambitions
● Migrer des projets Hadoop dans le Cloud
● Tous nouveaux projets Big data
● Respect de la réglementation GDPR
● Etanchéité des données et des accès entre les entités
PAAS First

Focus sur une stratégie client : PAAS pour tous
INPUT
RAW
REFINERY
GOLD
HDI DEV HDI REC HDI PRD
PROJET 1
PROJET 2
PROJET 3
Entité 1

Les écueils 1/2
Liés au provider
○ Service managé par provider (roadmap)
○ Temps de démarrage d’un cluster > 20 minutes
○ Nombre de composants pas forcément utiles
○ Versions des composants
○ Infra dédiées supplémentaires ( 3 machines zookeeper )
○ Identité du cluster

Les écueils 2/2
liés à l’organisation
Liés à l’organisation
○ Processus d’industrialisation fastidieux (Infra As Code dépendante de la roadmap)
○ Administration du cluster compliquée
○ Coûts humain
○ Règles de sécurité internes qui interdisent les accès par API, accès publics

▼ Faire du Spark sans HDI
▼ En serverless
▼ Sur Kubernetes
▼ Sur une autre offre
Plan de repli

Interaction
avec un
stockage de masse

ADLS présentation
▼ Stockage massif à faible coût
▼ Authentification avec Azure AD
▼ Un WebHDFS avec authentification Oauth2

ADLS données de travail

Interaction basique avec ADLS

Hadoop & les stockages de masse

core-site.xml
<property>
<name>fs.adl.oauth2.access.token.provider</name>
<value>${token_provider}</value>
</property>
<property>
<name>fs.adl.oauth2.client.id</name>
<value>${client_id}</value>
</property>
<property>
<name>fs.adl.oauth2.credential</name>
<value>${client_credential}</value>
</property>
<property>
<name>fs.adl.oauth2.refresh.url</name>
<value>https://login.microsoftonline.com/${tenant_id}/oauth2/token</value>
</property>

Valorisation à la volée
export HADOOP_OPTS="
-Dtoken_provider=org.apache.hadoop.fs.adl.custom.ClientCre
dentialTokenProvider
-Dclient_id=14f6dec4-b950-43a7-a2b3-e8fc310fc10b
-Dclient_credential=XXXXXXXXXXXXXXXXX
-Dtenant_id=xebiafrance.onmicrosoft.com
-Dadl_fqdn=majeur.azuredatalakestore.net "
hdfs dfs -ls adl://majeur.azuredatalakestore.net/

Spark + stockage de masse

Spark + Hadoop + Adls
export SPARK_DIST_CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath)
spark-shell
--master=local[4]
--conf
spark.driver.extraJavaOptions="-Dtoken_provider=org.apache.hadoop.fs.adl.custom.Cl
ientCredentialTokenProvider
-Dclient_id=14f6dec4-b950-43a7-a2b3-e8fc310fc10b
-Dclient_credential=<SECRET>
-Dtenant_id=xebiafrance.onmicrosoft.com
-Dadl_fqdn=majeur.azuredatalakestore.net"

Spark on Kubernetes

Cluster Manager

2.3.0 28/02/2018
2.3.1 08/06/2018
2.3.2 24/09/2018
2.4.0 02/11/2018

Kubernetes : fonctionnement

Construction de l’image
▼ Deux choses à modifier
▽ entrypoint.sh
▽ DockerFile
▼ Ne pas mettre le jar dans l’image Docker !!
▼ Mettre à disposition au choix :
▽ HTTP(S)
▽ NEXUS
▽ BLOB
▽ ZONE Kubernetes

Construction de l’image : DockerFile

Construction de l’image : entrypoint.sh
▼ Récupération des secrets
▼ Mode d’accès
▽ MASTER
▽ WORKER
▽ SPÉCIAL

Construction de l’image
docker build --no-cache -t <IMAGE> -f <DOCKER_FILE_PATH> <BUILD_PATH>
docker tag <IMAGE> bbouchahoua/<IMAGE>

Spark sur Kubernetes local : minikube
kubectl cluster-info
kubectl get nodes
kubectl get nodes
kubectl logs -f <pod>
kubectl describe pods <pod>
kubectl describe nodes <pod>

Spark sur Kubernetes managé : AKS

Spark sur conteneur
instance

▼ 14 Go de RAM max
▼ 4 VCPU max
▼ Démarrage rapide
▼ Améliorations à venir
▼ Coût faible
Azure conteneur instance

Conclusion

On prem / IAAS CAAS PAAS/aPAAS Serverless
Google CE
AWS EC2
Azure VM
GKE
ECS
ACS → AKS
Fargate
ACI
DataProc
EMR, Glue
HDI
Conclusion

Conclusion
▼ Administration/monitoring/logging/alerting
▼ Colocalisation de traitements Data & de microservices
▼ Distribution optionnelle et plus systématique
▼ Liberté sur le choix de la version Spark
▼ Coût faible

Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (11)

Similaire à Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur

Similaire à Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur (20)

Plus de Publicis Sapient Engineering

Plus de Publicis Sapient Engineering (20)

Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur