Cassandra Spark Lan Party at Devoxx France

#DevoxxFR
Cassandra / Spark
Lan Party
Gautier Dhordain @gdhordain
Amira Lakhal @miralak
Thomas Recloux @thomasrecloux
Jérémy Sevellec @jsevellec
1
(Pour l’instant, ne touchez à rien)

#DevoxxFR
Ne touchez vraiment à rien :-)
(tout sera en ethernet)
‘pas de wifi’
2

#DevoxxFR
Qui est-ce?
3
Gautier Dhordain (@gdhordain)
Freelance - Ch’ti JUG volunteer
Amira Lakhal (@miralak)
Valtech Technology - Duchess Leader
Thomas Recloux (@thomasrecloux)
Freelance - Ch’ti JUG co-leader
Jérémy Sevellec @jsevellec
Freelance - Ch’ti JUG co-leader

#DevoxxFR
Si vous avez
une question / un problème :
N’ hésitez pas à demander à un
T-Shirt rouge
4

#DevoxxFR
Merci pour le prêt
de matériels / salle
5

#DevoxxFR
Ce qu’on va faire
6
Créer un cluster Cassandra /
Spark avec vos machines

#DevoxxFR
Ce qu’on va faire
7
Découverte par la pratique

#DevoxxFR
Ce qu’on va faire
8
FUN

#DevoxxFR
Ce qu’on va faire
9
Battre un record du monde!
Devoxx France 2012 :
36 noeuds

#DevoxxFR
Sondage
10
Qui a déjà joué avec
- Cassandra ?
- Spark ?
- Cassandra et Spark ?
- Scala ?

#DevoxxFR
AGENDA
11
- Setup Réseau
- un peu de théorie Cassandra
- Setup Cassandra
- Jouer avec Cassandra
- un peu de théorie Spark
- Setup Spark
- Jouer avec Cassandra et Spark

#DevoxxFR
Respectez la conf demandée
12

#DevoxxFR
Essayons d’éviter ça
14

#DevoxxFR
Schéma réseau
15
WORLD
LILLE
10.1.1.X
SAN FRANCISCO
10.2.1.X
SINGAPOUR
10.3.1.X
Biloute
10.1.1.1
Roger
10.1.1.2
…
Steve
10.2.1.1
Bill
10.2.1.2
…
Hung
10.3.1.1
Tuan
10.3.1.2
…

#DevoxxFR
Merci de couper votre WIFI
16

#DevoxxFR
Regroupez-vous par datacenter /
switch
Répartissons « la charge »
17

#DevoxxFR
Attributions des IPs
18
Bob
10.1.1.
1
Roger
10.1.1.
2
…
10.1.1.
3

#DevoxxFR
Configuration réseau
19
IP : votre IP (celle du post-it)
Masque de sous réseau : 255.0.0.0
pas de proxy
pas de routeur/gateway/passerelle
test ping :
10.1.1.0, 10.1.1.1, 10.2.1.1, 10.3.1.1

#DevoxxFR
Théorie Cassandra
20

#DevoxxFR
C’est quoi Cassandra
22
« The Apache Cassandra database is
the right choice when you need
scalability and high availability without
compromising performance »

#DevoxxFR
Pourquoi utiliser Cassandra?
23
Scale UP/DOWN
Données qui ne tiennent pas sur
un serveur
Grosse charge d’écriture

#DevoxxFR
Principales fonctionnalitées
24
Nativement distribué
datacenter aware
Master less
Partionnement des données
Réplication des données
Niveau de consistance configurable

#DevoxxFR
Comment est stockée une table sur le
cluster?
26
Chaque table a une PRIMARY KEY
PRIMARY KEY = PARTITION KEY
Une fonction associe une valeur de clef primaire à un Hash /
Token
Chaque noeud du cluster prend en charge un « token range »
Pour chaque « keyspace » (= schéma) , on défini un
« REPLICATION FACTOR ». Chaque donnée est répliquée
selon ce replication factor.

#DevoxxFR 27
name gender age
jérémy M 25
amira F 26
gautier M 42
thomas M 27
…. …. ….
name gender age
jérémy M 25
… … ….
name gender age
amira F 26
… … …
name gender age
gautier M 42
thomas M 27
…. …. ….

#DevoxxFR
Consitency Level
29
Cassandra vous laisse maitre du niveau de consistence
Principaux niveaux :
• ONE
• LOCAL_ONE
• QUORUM
• LOCAL_QUORUM
Quorum = (replication factor / 2 ) + 1

#DevoxxFR
NE PAS DEMARRER
CASSANDRA AVANT LE GO
d’un T-Shirt rouge
31

#DevoxxFR 32
KEEP
CALM
THERE’S AN APP
FOR THAT

#DevoxxFR
Utiliser le configurateur
http://10.1.1.0:8080/
33

#DevoxxFR
NE PAS DEMARRER
CASSANDRA AVANT LE GO
d’un T-Shirt rouge
34

#DevoxxFR
Setup Cassandra
35
- récupérer le binaire Cassandra
- décompresser l’archive
- configurer :
cassandra.yaml
logs

#DevoxxFR
Cassandra.yaml
36
seeds : Liste des noeuds à contacter initialement
listen_address : communication inter noeud
rpc_address : communication avec client
RackInferringSnitch : 10.<datacenter>.<rack>.<node>
auto_bootstrap: false : joindre le cluster sans échanger de données

#DevoxxFR
Démarrage progressif du cluster
Cassandra
37

#DevoxxFR
Création du Keyspace et de la
table
38

#DevoxxFR
C’est quoi Spark
41
« Apache Spark™ is a fast and
general engine for large-scale
data processing. »

#DevoxxFR
Pourquoi utiliser Spark?
42
Pour faire du calcul distribué sur un
gros volume de données
parce que Hadoop c’est trop compliqué
parce que c’est hype de faire du Spark

#DevoxxFR
Principales fonctionnalitées
43
programmation fonctionnelle
RDD
DAG
en mémoire (RAM)

#DevoxxFR
RDD
44
RDD = Resilient Distributed Dataset
Spark construit un DAG à partir des opérations sur le RDD et
chaque opération n’est effectuée que si nécessaire
Une opération peut être effectuée deux fois
API Scala / Java / Python

#DevoxxFR
RDD
46
Transformations locales :
• map
• filter
• flatMap
• …
Transformations distribuées :
• groupByKey
• reduceByKey
• …

#DevoxxFR
RDD
47
Actions :
• collect
• count
• first
• take(n)
• foreach
• ….

#DevoxxFR
Spark Standalone Cluster
48
Worker
Worker
Worker
Worker
Worker
Master
Driver
Executor
Executor
ExecutorExecutor
Executor

#DevoxxFR
Pourquoi utiliser Cassandra et Spark?
49
Spark est le couteau
suisse
permettant de gérer vos
données
avec Cassandra

#DevoxxFR
Spark Cassandra Connector
50

#DevoxxFR
Cassandra Spark Connector
51
Un vrai connecteur
Data locality
Scala / Java

#DevoxxFR
Cassandra + Spark
52
C*
52
C*
C*
C*
C*
Spark
Worker
Spark
Worker
Spark
Worker
Spark
Worker
Spark
Worker

#DevoxxFR
Nouvelles opérations RDD
53
cassandraTable(keyspace, table)
repartitionByCassandraReplica(keyspace, table)
joinWithCassandraTable(keyspace, table)

#DevoxxFR
Stop à la théorie
54

#DevoxxFR 56
KEEP
CALM
THERE’S AN APP
FOR THAT

#DevoxxFR
Utiliser le configurateur
http://10.1.1.0:8080/spark
57

#DevoxxFR
Configuration de Spark
58

#DevoxxFR
Démarrage du cluster Spark
59

#DevoxxFR
Music Dataset
61
albums
title (PK)
performer_name
year
country
quality
status
performers
performer_name (PK)
country
gender
type
born
died
styles

#DevoxxFR
Récap
62
créé un réseau avec 3 data centers
créé un cluster Cassandra sur 3 datacenters
inséré/lu des données dans cassandra
faire tomber un datacenter
créé un cluster Spark (global)
executer un job Spark sur le cluster
battu un record du monde? : non

Cassandra Spark Lan Party at Devoxx France

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

Similaire à Cassandra Spark Lan Party at Devoxx France

Similaire à Cassandra Spark Lan Party at Devoxx France (20)

Cassandra Spark Lan Party at Devoxx France

Notes de l'éditeur