Atelier – Big Data et les enjeux du
temps réel avec Spark
VOS SPEAKERS
Atelier –
Big Data et les
enjeux du
temps réel
avec Spark
Demba NGOM
Consultant Big Data
(SMILE)
Adrien FUTSCHIK
Directeur BU Data
(SMILE)
Avec de l’audace et des beaux projets, ajoutez une pincée de
culture visionnaire, une bonne dose d’innovation, saupoudrez le
tout d’une expertise technique pluridisciplinaire et vous
obtenez Smile, le leader européen de l’intégration et de
l’infogérance de solutions open source.
UNE OFFRE
GLOBALE
Agiles, open et engagés,
chez Smile, nous adorons
avoir un coup d’avance
pour garder notre place
sur le podium des acteurs
majeurs du digital. Pour
cela, nous
avons développé 4
offres pour vous
accompagner dans votre
transformation numérique
DIGITAL
BUSINESS
APPS
EMBEDDED
& IOT
INFRA
DATA
MANAGEMENT
(PARIS, LYON, LILLE)
Intégration de
données et de
Services
(ETL / ESB)
5
Big Data & Analytics
(BI / CPM / BigData /
Datascience)
API Management
A LA POINTE DE LA
TECHNOLOGIE
6
BIG DATA &
ANALYTICS
(BI / CPM /
BIGDATA /
DATASCIENCE)
STREAMING DE
DONNÉES
8
STREAMING DE
DONNÉES
Streaming de données = traitement de données en temps réel
=> Ceci permet de rapprocher les utilisateurs et d’accélérer le
traitement des données et la prise de décision dans les entreprises
Quelques « Use-cases »
 les automates bancaires
 IoT (Objects connectés, Usine 4.0, Maintenance prédictive, …)
 les systèmes de contrôle du trafic (routier, …)
=> Comment traiter une grosse volumétrie de donnée en temps réel
ou pseudo-temps réel ?
C’est le sujet de cet Atelier !
APACHE NIFI Apache NiFi permet de définir un flux de données
entre 2 systèmes
L’interface graphique « full-web » permet de designer facilement des
flux entre plusieurs sources et destinations.
C’est un outil puissant qui permet :
 Le routage
 La transformation
10
KAFKA Apache Kafka est une plate-forme logicielle de
traitement de flux de données open-source développée
par Apache Software Foundation en Scala et Java.
C’est une plate-forme unifiée, à haut débit et à faible latence pour la
gestion des flux de données en temps réel.
 couche de stockage : une file d'attente de messages massivement
extensible
Kafka se connecte à des systèmes externes (pour l'import / export de
données) via Kafka Connect
Kafka fournit Kafka Streams, une bibliothèque de traitement de flux
Java
11
SPARK ET SPARK
STREAMING
Spark est un framework de traitement de données
distribué
Spark propose différents modules :
 Spark core : Une API de haut niveau pour traiter des RDD et planifier des
taches sur le cluter
 Spark SQL : Language de manipulation de donnée basé sur SQL
 Spark streaming : gestion de flux par micro-batch
 Spark ML : bibliothèque de gestion de Machine Learning
 Graphx : traitement « graph » en parallèle
Spark design principles
 Lazy computing design
 Optimisation des jobs avant exécution
 In-memory caching
 Lectures/Ecritures plus rapides
 Performances accrues pour les traitements itératifs (Machine learning)
 Optimized pipelines
 I/O réduits
SPARK ET SPARK
STREAMING
Principe d’architecture avec Spark Cluster :
 1 Driver
 Plusieurs Workers
 1 Cluster Manager
CAS PRATIQUE
Analyse de données en temps réel
avec NiFI, Kafka et Spark Streaming
14
CAS PRATIQUE Notre architecture
1/ Apache NiFi: Collecte
et routage des données
2/ Kafka : Stockage
intermédiaire
3/ Spark streaming :
Analyse en micro-batch
4/ Datalake Hadoop :
analyse avec Zeppelin
PLACE À LA DEMO
16
Une question ? Un projet ?
Contactez-nous !
Vincent Bourbon
Sales Development Manager
vincent.bourbon@smile.fr
01 41 40 59 31
[Smile]   atelier spark - salon big data 13032018

[Smile] atelier spark - salon big data 13032018

  • 1.
    Atelier – BigData et les enjeux du temps réel avec Spark
  • 2.
    VOS SPEAKERS Atelier – BigData et les enjeux du temps réel avec Spark Demba NGOM Consultant Big Data (SMILE) Adrien FUTSCHIK Directeur BU Data (SMILE)
  • 3.
    Avec de l’audaceet des beaux projets, ajoutez une pincée de culture visionnaire, une bonne dose d’innovation, saupoudrez le tout d’une expertise technique pluridisciplinaire et vous obtenez Smile, le leader européen de l’intégration et de l’infogérance de solutions open source.
  • 4.
    UNE OFFRE GLOBALE Agiles, openet engagés, chez Smile, nous adorons avoir un coup d’avance pour garder notre place sur le podium des acteurs majeurs du digital. Pour cela, nous avons développé 4 offres pour vous accompagner dans votre transformation numérique DIGITAL BUSINESS APPS EMBEDDED & IOT INFRA
  • 5.
    DATA MANAGEMENT (PARIS, LYON, LILLE) Intégrationde données et de Services (ETL / ESB) 5 Big Data & Analytics (BI / CPM / BigData / Datascience) API Management
  • 6.
    A LA POINTEDE LA TECHNOLOGIE 6
  • 7.
    BIG DATA & ANALYTICS (BI/ CPM / BIGDATA / DATASCIENCE)
  • 8.
  • 9.
    STREAMING DE DONNÉES Streaming dedonnées = traitement de données en temps réel => Ceci permet de rapprocher les utilisateurs et d’accélérer le traitement des données et la prise de décision dans les entreprises Quelques « Use-cases »  les automates bancaires  IoT (Objects connectés, Usine 4.0, Maintenance prédictive, …)  les systèmes de contrôle du trafic (routier, …) => Comment traiter une grosse volumétrie de donnée en temps réel ou pseudo-temps réel ? C’est le sujet de cet Atelier !
  • 10.
    APACHE NIFI ApacheNiFi permet de définir un flux de données entre 2 systèmes L’interface graphique « full-web » permet de designer facilement des flux entre plusieurs sources et destinations. C’est un outil puissant qui permet :  Le routage  La transformation 10
  • 11.
    KAFKA Apache Kafkaest une plate-forme logicielle de traitement de flux de données open-source développée par Apache Software Foundation en Scala et Java. C’est une plate-forme unifiée, à haut débit et à faible latence pour la gestion des flux de données en temps réel.  couche de stockage : une file d'attente de messages massivement extensible Kafka se connecte à des systèmes externes (pour l'import / export de données) via Kafka Connect Kafka fournit Kafka Streams, une bibliothèque de traitement de flux Java 11
  • 12.
    SPARK ET SPARK STREAMING Sparkest un framework de traitement de données distribué Spark propose différents modules :  Spark core : Une API de haut niveau pour traiter des RDD et planifier des taches sur le cluter  Spark SQL : Language de manipulation de donnée basé sur SQL  Spark streaming : gestion de flux par micro-batch  Spark ML : bibliothèque de gestion de Machine Learning  Graphx : traitement « graph » en parallèle Spark design principles  Lazy computing design  Optimisation des jobs avant exécution  In-memory caching  Lectures/Ecritures plus rapides  Performances accrues pour les traitements itératifs (Machine learning)  Optimized pipelines  I/O réduits
  • 13.
    SPARK ET SPARK STREAMING Principed’architecture avec Spark Cluster :  1 Driver  Plusieurs Workers  1 Cluster Manager
  • 14.
    CAS PRATIQUE Analyse dedonnées en temps réel avec NiFI, Kafka et Spark Streaming 14
  • 15.
    CAS PRATIQUE Notrearchitecture 1/ Apache NiFi: Collecte et routage des données 2/ Kafka : Stockage intermédiaire 3/ Spark streaming : Analyse en micro-batch 4/ Datalake Hadoop : analyse avec Zeppelin
  • 16.
    PLACE À LADEMO 16
  • 17.
    Une question ?Un projet ? Contactez-nous ! Vincent Bourbon Sales Development Manager vincent.bourbon@smile.fr 01 41 40 59 31