[Smile] atelier spark - salon big data 13032018

Atelier – Big Data et les enjeux du
temps réel avec Spark

VOS SPEAKERS
Atelier –
Big Data et les
enjeux du
temps réel
avec Spark
Demba NGOM
Consultant Big Data
(SMILE)
Adrien FUTSCHIK
Directeur BU Data
(SMILE)

Avec de l’audace et des beaux projets, ajoutez une pincée de
culture visionnaire, une bonne dose d’innovation, saupoudrez le
tout d’une expertise technique pluridisciplinaire et vous
obtenez Smile, le leader européen de l’intégration et de
l’infogérance de solutions open source.

UNE OFFRE
GLOBALE
Agiles, open et engagés,
chez Smile, nous adorons
avoir un coup d’avance
pour garder notre place
sur le podium des acteurs
majeurs du digital. Pour
cela, nous
avons développé 4
offres pour vous
accompagner dans votre
transformation numérique
DIGITAL
BUSINESS
APPS
EMBEDDED
& IOT
INFRA

DATA
MANAGEMENT
(PARIS, LYON, LILLE)
Intégration de
données et de
Services
(ETL / ESB)
5
Big Data & Analytics
(BI / CPM / BigData /
Datascience)
API Management

A LA POINTE DE LA
TECHNOLOGIE
6

BIG DATA &
ANALYTICS
(BI / CPM /
BIGDATA /
DATASCIENCE)

STREAMING DE
DONNÉES
Streaming de données = traitement de données en temps réel
=> Ceci permet de rapprocher les utilisateurs et d’accélérer le
traitement des données et la prise de décision dans les entreprises
Quelques « Use-cases »
 les automates bancaires
 IoT (Objects connectés, Usine 4.0, Maintenance prédictive, …)
 les systèmes de contrôle du trafic (routier, …)
=> Comment traiter une grosse volumétrie de donnée en temps réel
ou pseudo-temps réel ?
C’est le sujet de cet Atelier !

APACHE NIFI Apache NiFi permet de définir un flux de données
entre 2 systèmes
L’interface graphique « full-web » permet de designer facilement des
flux entre plusieurs sources et destinations.
C’est un outil puissant qui permet :
 Le routage
 La transformation
10

KAFKA Apache Kafka est une plate-forme logicielle de
traitement de flux de données open-source développée
par Apache Software Foundation en Scala et Java.
C’est une plate-forme unifiée, à haut débit et à faible latence pour la
gestion des flux de données en temps réel.
 couche de stockage : une file d'attente de messages massivement
extensible
Kafka se connecte à des systèmes externes (pour l'import / export de
données) via Kafka Connect
Kafka fournit Kafka Streams, une bibliothèque de traitement de flux
Java
11

SPARK ET SPARK
STREAMING
Spark est un framework de traitement de données
distribué
Spark propose différents modules :
 Spark core : Une API de haut niveau pour traiter des RDD et planifier des
taches sur le cluter
 Spark SQL : Language de manipulation de donnée basé sur SQL
 Spark streaming : gestion de flux par micro-batch
 Spark ML : bibliothèque de gestion de Machine Learning
 Graphx : traitement « graph » en parallèle
Spark design principles
 Lazy computing design
 Optimisation des jobs avant exécution
 In-memory caching
 Lectures/Ecritures plus rapides
 Performances accrues pour les traitements itératifs (Machine learning)
 Optimized pipelines
 I/O réduits

SPARK ET SPARK
STREAMING
Principe d’architecture avec Spark Cluster :
 1 Driver
 Plusieurs Workers
 1 Cluster Manager

CAS PRATIQUE
Analyse de données en temps réel
avec NiFI, Kafka et Spark Streaming
14

CAS PRATIQUE Notre architecture
1/ Apache NiFi: Collecte
et routage des données
2/ Kafka : Stockage
intermédiaire
3/ Spark streaming :
Analyse en micro-batch
4/ Datalake Hadoop :
analyse avec Zeppelin

Une question ? Un projet ?
Contactez-nous !
Vincent Bourbon
Sales Development Manager
vincent.bourbon@smile.fr
01 41 40 59 31

[Smile] atelier spark - salon big data 13032018

[Smile] atelier spark - salon big data 13032018

Contenu connexe

Similaire à [Smile] atelier spark - salon big data 13032018

Plus de Smile I.T is open

[Smile] atelier spark - salon big data 13032018