SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
Romain Jouin
Romain.jouin@memorandum.pro 06 52 86 87 30
Spark
Introduction
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Mémorandum en une slide
Mémorandum est un cabinet de conseil en data stratégie.
Nous intervenons sur trois axes :
1. Coaching d’organisation pour devenir data-driven
2. Analyse de données
3. Industrialisation de solutions informatiques
Nous apportons :
➔ Une méthodologie mélant stratégie et technique.
➔ Des preuves de concepts “machine learning” avec les outils en
pointe de la communauté open source
➔ Des méthodes agiles et de Lean Analytics qui garantissent des
résultats adaptés
Romain Jouin - Associé
INT Management 2006 - Télécom Paris 2013
7 ans de commercial
25 ans d’informatique
romain.jouin@memorandum.pro - 06 52 86 87 30
Denis Oblin - Associé
Centrale 1994 - Télécom Paris 2013
10 ans de conseil en stratégie
7 ans en direction opérationnelle Groupama
denis.oblin@memorandum.pro - 06 71 62 74 92
Mémorandum a trois expertises majeures :
➔ Technique
◆ Big Data
◆ Machine Learning
➔ Fonctionnelle
◆ Stratégie de la micro décision
◆ Marketing
➔ Métier
◆ Relation client
◆ Force de vente
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Présentation des intervenants
Romain Jouin 06 52 86 87 30 – romain.jouin@memorandum.pro
3
• Romain a une double culture :
• Informatique : développement logiciels
• Commerciale : chasse de clients et développement de portefeuille
− …
Compétences principales
Valorisation des données
• ….,
Montage projets de industriels big data (Institut Mines Telecom)
• ….
Expertise métier
…
Compétences sectorielles
Quelques références
Mastère
Big Data
Telecom
Paristech
2014
Formation
− …
Parcours
− ..
− Développement informatique : web, infrastructures,
Machine Learning (Python)
− Processus de vente : démarches commerciales,
processus d’élevage / chasse
Compétences principales
Valorisation des données
• Acteur de l’assurance: évaluation du risque de churn – 200
millions de lignes à analyser
• Acteurs de la santé : Prédiction de concentrations moléculaires
• Evolution de la satisfaction client : déceler les différences de
tendances dans un réseau de distribution
• Acteur de l’énergie : scrapping web et analyse de l’e-réputation
sur les forums Français
• Cabinet de conseil : Formation aux Big Data
• École d’ingénieur : Initiation aux technologies du Big Data et à la
Datavisualisation
Participation à l’écosystème Data sur Paris
• Animateur de groupes d’intérêts autour de la Data (plus de 2000
personnes à Paris). 15 événements organisés depuis Octobre 2014.
Expertise métier
Informatique
• Développement web full-stack Python & Jquery
• Gestion d’infrastructure Big Data : Hadoop / Spark / Mesos / Docker
Commerce
• Choix des marchés stratégiques - Plan d’attaques du marché
• Reporting (>15 Meur) - Prévision annuel du CA
• Chasse - Présentation clients - Ajustement des prix
• Gestion d’équipes de consultants
Compétences sectorielles
Quelques références
Mastère
Big Data
Telecom
Paristech
2014
INT école de
Management
2006
Formation
− 2 ans en tant que Freelance en
informatique (sites web, macros…)
− 3 ans en tant que Business
Developer de la branche Network
Integration Services chez Alactel-
Lucent Russie
− 2 ans de Chargé d’affaires chez
Toshiba Cloud Services France
Parcours
− Télécommunications / Cloud
− Web
1. Pourquoi Spark ?
2. Installer un cluster Spark
3. Hadoop et HDFS
4. Spark Core (RDD)
5. Spark SQL
6. Spark ML
6.1. Introduction au ML
6.2. Spark ML - intro
6.3 Clustering
6.4 Régression
6.5 Classification
7. Spark Streaming
1. Concepts
2. Ecoute de socket
3. Opérations : StateLess / StateFull / Union
4. ML en temps réel
Spark - 4 jours d’introduction
Juin 2017
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
8. Bonus :
1. Export dans Mongo
2. Aperçu de Flume
3. Aperçu de Kafka
4. Aperçu d’Hortonworks
9. Conclusion
4
5Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Introduction aux technologies Big Data
Volume
Variété2
Vitesse3
Eco-System Hadoop4
11
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Cette année nous fêtons les 80 ans de l’informatique
1936 : Alan Turing
1968 : Intel
1972 : Internet
1977 : Oracle
1992 : Internet = 1 million de PCs
1995 : MySQL / PostGreSQL
1996 : Internet = 36 millions de PCs
2000 : Internet = 360 millions de Pcs
2007 : Iphone
2015 : 2 milliards de smartphones
2020 : 50 milliards d’objets connectés ? Linux
Vm Ware
Map Reduce
Dev - Ops
Docker
6
7Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Où vont les données ? Sur des disques ! 7
http://www.mkomo.com/assets/hd-cost-graph-small.png
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
➢Les interfaces de connexion au disque dur:
• IDE-ATA : 133 Mo/s ( obsolète )
• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )
• S-ATA : de 150 à 600 Mo/s ( standard actuel )
➢Carte mères : 500 eur
• 2 x SATA3 6.0 Gb / s
• 8 x SAS2/SATA3 6.0 Gb / s
➢Taille des disques : 6 To – 300 euros
➢Configuration : 60 To max / 3500 euros
➢Temps de lecture :
• Théorique : 100 000 secondes / 27 heures
• Pratique : Deux ou trois fois plus lent : environ 3 jours
IDE-ATA
SCSI
S-ATA=> Combien de temps pour tout lire ?
La meilleure config sur Rue du Commerce : 60 To
8
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
IBM Benchmark ( 2011) : 480 disques !
9
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
IBM Benchmark ( 2011) : 480 disques !
10
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
IBM Benchmark ( 2011) : 480 disques !
480 disques de 146 Gb : 71 Tb
15 K RPM
14 Gb / s
5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ?
=> A quel prix ?
11
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
MTBF : Mean Time Before Failure
100 disques | MTBF 5 ans = 20 pannes / an
Soit un disque à changer toutes les 2 semaines.
Risques :
1. Coût
2. Instabilité du système
3. Perte d’information !
Hadoop résout le MTBF en déduplicant la donnée :
replication factor = 3
Si un disque tombe en panne, on retrouve
l’information sur un des deux autres disques.
12
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
MTBF : Transformer un problème en atout
Lent (dédié au mode “batch”)
Pas cher
(12 Keur/machine)
mais redondant !
Rapide
Map (Sort) Reduce
mais complexe !
13
14Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
11
14
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Des sources de plus en plus diverses
15
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
La fin d’un monde
1950 - 2009 2015
JSON
16
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
La fin d’un monde
1950 – 2009
Systèmes de gestion de bases de données
2015
Système de fichier distribué
Logiciel Vs OS
Contrainte = nom de fichier unique et
formatage, type d’enregistrement Vs
logique de la donnée
JSON
Hadoop Sequence File
Problèmes de scalabilité horizontale
Limites liées à l’OS
Fortes contraintes de données
100 G en csv => 10 G en parquet
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Formalisme JSON :
clef : valeur
{
« nom » : « jouin » ,
« prénom » : « romain » ,
« adulte » : true ,
« adresse » : { « ville » : « paris » ,
« cp » : « 75013 »}
}
18
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Des caractéristiques différentes ...
1950 - 2009
1950 2010 2015
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
19
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Pour de nouveaux usages :
1950 - 2009
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
20
1950 2010 2015
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Un vocabulaire qui change :
1950 - 2009
Online Transaction Processing
MCD / Schéma / Relationnel
UML / MERISE
Référentiel / dictionnaires de données
SQL Triggers
Silos / Logiciels / Licences / BI
Online Analytical Processing
NoSQL / Schemaless
Machine Learning / Prédictif
Apprentissage (Non) Supervisé
Partage / API / Open Sources /
Dashboard / Data Visualisation
21
1950 2010 2015
22Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
11
22
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Loi d’Amdhal :
Soit un programme :
• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )
• N = nombre de processeurs
• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur
Gain possible en temps :
• Gain sur P = P/N < P < 1
• Partie sur laquelle on ne peut rien gagner : 1 – P < 1
• Durée nécessaire : (1-P) + P/N <1
• Accélération possible : 1 / Durée nécessaire > 1
• Exemples :
• 95% parallélisable : P = 0.95
• 100 processeurs : N = 100
• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide
• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
Coordination complexe
Dans les systèmes parallèles
23
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Jusqu’en 2004 la solution était d’acheter un ordinateur « plus gros »
En 2004 Google propose
d’utiliser plusieurs ordinateurs
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
MTBF : Transformer un problème en atout
Lent (dédié au mode “batch”)
Pas cher
(12 Keur/machine)
mais redondant !
Rapide
Map (Sort) Reduce
mais complexe !
25
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
@IP 1 @IP 4@IP 2 @IP 3
26
HDFS : distribuer le stockage
Un
Un, deux,
Un, deux, trois
Un, deux, trois, quatre Un, deux,
Un, deux, trois, quatre
UnB1
B2
Un, deux, troisB3
B4
Un, deux, trois, quatreB4Un, deux, trois, quatreB4
Un, deux, troisB3 Un, deux, troisB3
Un, deux,B2 Un, deux,B2
Un, deux, troisB3
Un, deux, trois, quatreB4
Un, deux,B2
UnB1 UnB1 UnB1
@IP 1
@IP 1
@IP 1
@IP 2
@IP 2 @IP 3
@IP 3
@IP 4
@IP 4
@IP 2 @IP 3 @IP 4
FS Image
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
mapmapmapmapmap
Ordinateur
OrdinateurOrdinateur Ordinateur Ordinateur
Calcul
calcul
worker
master
workerworkerworker
27
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Map
Pour chaque mot du fichier,
renvoyer le mot associé à la
valeur 1
Mode « clef :valeur »
Clef = un mot
Valeur = 1
Nombre de « clef:valeur » =
Nombre de mots dans le
fichier
Compter le nombre d’occurrences
des mots dans un fichier en Map reduce
28
(Sort)
Regrouper ensemble les
paires « clef : valeur » qui ont
la même clef
Faire une liste par clef
Nombre de liste = nombre de
mot différent dans le fichier
Reduce
Pour chaque liste, additionner
toutes les valeurs
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Ordinateur
OrdinateurOrdinateur Ordinateur Ordinateur
worker
Un
Un, deux,
Un, deux, trois
Un, deux, trois, quatre
workerworker
map map map map
master
worker
sort reduce
{
« un » : 1
}
{
« un » : 1
« deux » : 1
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1 ,
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1 ,
« quatre » : 1 ,
}
Compter le nombre d’occurrence
Des mots dans un fichier en Map reduce
29
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Ordinateur
OrdinateurOrdinateur Ordinateur Ordinateur
worker
Un
Un, deux,
Un, deux, trois
Un, deux, trois, quatre
workerworker
map map map map
master
worker
sort reduce
{
« un » : 1
}
{
« un » : 1,
« deux » : 1
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1 ,
« quatre » : 1
}
{ « un » : 1 , « un » : 1 , « un » : 1 , « un » : 1 }
{ « deux » : 1 , « deux » : 1 , « deux » : 1 }
{ « trois » : 1 , « trois » : 1}
{ « quatre » : 1}
30
Compter le nombre d’occurrence
Des mots dans un fichier en Map reduce
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Ordinateur
OrdinateurOrdinateur Ordinateur Ordinateur
worker
Un
Un, deux,
Un, deux, trois
Un, deux, trois, quatre
workerworker
map map map map
master
worker
sort
For each key,
sum of
attached
values
{
« un » : 1
}
{
« un » : 1,
« deux » : 1
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1
}
{
« un » : 1 ,
« deux » : 1 ,
« trois » : 1 ,
« quatre » : 1
}
{ « un » : 1 , « un » : 1 , « un » : 1 , « un » : 1 }
{ « deux » : 1 , « deux » : 1 , « deux » : 1 }
{ « trois » : 1 , « trois » : 1}
{ « quatre » : 1}
{ « un » : 4 }
{ « deux » :3 }
{ « trois » : 2}
{ « quatre » : 1}
31
Compter le nombre d’occurrence
Des mots dans un fichier en Map reduce
32Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-système Hadoop4
11
32
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Une histoire très rapide
33
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
HADOOP 1.0
34
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
HADOOP 2.0
35
Modèle en couche pour découpler l’accès
au ressource de l’éxécution du calcul lui
même
Outil de stockage
(celui que vous utilisez chez IBM ?)
Début du streaming
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
36
Hadoop désigne autant un outil qu’un Eco-Système
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Spark unifie les différentes briques software de l’écosystème hadoop
Spark ML Lib
Spark Graph X
Core Spark
RDD
Java
Scala
Python
R
Spark SQL
Spark
Standalone
37
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Hadoop est en train de disparaître, au profit de Spark
38
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Support matters
La RAM est jusqu’à 70 fois plus rapide que le disque en écriture
et 50 fois en lecture
39
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Support matters
x 388
x 777
x 1314
40
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Lambda architecture
9 000 € / Tb
20 € / Tb
41
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Benchmark
• http://www-bcf.usc.edu/~minlanyu/teach/csci599-
fall12/papers/nsdi_spark.pdf
42
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Analyse de données
43
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Simplicité du code
44
Source : Spark in action (Manning)
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Architecture des applications orientées data
Interaction Data visualisation MatplotLib Seaborn d3js Bokeh
Analyse Exploration
Machine Learning Prédictif Clustering Décisions
Graphes Amis Logistique Réseaux d’agences
Flux Serveurs Logs Twitter
Intégration Les « 6 C »
Connecter Collecter API Filtrer
Corriger Composer Nettoyer Aggréger
Consommer Contrôler Analyser Stocker
Persistence SQL Mysql PostGreSQL
No SQL
-> clef – valeur Riak, Redis
-> orientée document MongoDB CouchBase
-> orientée colonne HBase Cassandra
-> orientée graph Neo4j
Infrastructure Virtualisation VMWare, Virtual Box, Docker
Scalabilité Cluster
Intégration continue Dev Ops, Vagrant, Puppet
4545
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
Architecture des applications orientées data
Interaction Bokeh
Analyse Spark SQL
Spark ML Lib
Spark GraphX
Spark Streaming
Intégration Sark SQL
Blaze (python)
Pandas (python)
Persistence MongoDB
Hadoop
Infrastructure Hors scope
4646
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
47
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
48
Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation
49

Contenu connexe

Similaire à 1 pourquoi le big data aujourdhui

Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020SEO CAMP
 
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...DotRiver
 
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTVISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTFactoVia
 
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOCore Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
Présentation de l'Opensource
Présentation de l'OpensourcePrésentation de l'Opensource
Présentation de l'OpensourceThierry Gayet
 
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...Amazon Web Services
 
Php forum 2017 - Maisons du Monde
Php forum 2017 - Maisons du MondePhp forum 2017 - Maisons du Monde
Php forum 2017 - Maisons du Mondemarchugon
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.OW2
 
CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big DataSynaltic Group
 
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 -
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 - IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 -
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 - IBM France Lab
 
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Ametys
 
Dotriver Openadira 20100128
Dotriver Openadira 20100128Dotriver Openadira 20100128
Dotriver Openadira 20100128Thierry CHABROL
 
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...Microsoft Ideas
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j
 

Similaire à 1 pourquoi le big data aujourdhui (20)

Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
 
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
 
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoTVISEO Shake the Microsoft business - comment rapidement batir une solution IoT
VISEO Shake the Microsoft business - comment rapidement batir une solution IoT
 
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOCore Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude
 
Présentation de l'Opensource
Présentation de l'OpensourcePrésentation de l'Opensource
Présentation de l'Opensource
 
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec ...
 
Php forum 2017 - Maisons du Monde
Php forum 2017 - Maisons du MondePhp forum 2017 - Maisons du Monde
Php forum 2017 - Maisons du Monde
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.
 
CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big Data
 
Démystifions l'API-culture!
Démystifions l'API-culture!Démystifions l'API-culture!
Démystifions l'API-culture!
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 -
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 - IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 -
IBM Bluemix Nice Meetup #2 - CEEI NCA - 20161011 -
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
 
Dotriver Openadira 20100128
Dotriver Openadira 20100128Dotriver Openadira 20100128
Dotriver Openadira 20100128
 
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...
Batir un cloud hybride en combinant public cloud, dedicated cloud, et cloud p...
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métier
 

1 pourquoi le big data aujourdhui

  • 1. Romain Jouin Romain.jouin@memorandum.pro 06 52 86 87 30 Spark Introduction
  • 2. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Mémorandum en une slide Mémorandum est un cabinet de conseil en data stratégie. Nous intervenons sur trois axes : 1. Coaching d’organisation pour devenir data-driven 2. Analyse de données 3. Industrialisation de solutions informatiques Nous apportons : ➔ Une méthodologie mélant stratégie et technique. ➔ Des preuves de concepts “machine learning” avec les outils en pointe de la communauté open source ➔ Des méthodes agiles et de Lean Analytics qui garantissent des résultats adaptés Romain Jouin - Associé INT Management 2006 - Télécom Paris 2013 7 ans de commercial 25 ans d’informatique romain.jouin@memorandum.pro - 06 52 86 87 30 Denis Oblin - Associé Centrale 1994 - Télécom Paris 2013 10 ans de conseil en stratégie 7 ans en direction opérationnelle Groupama denis.oblin@memorandum.pro - 06 71 62 74 92 Mémorandum a trois expertises majeures : ➔ Technique ◆ Big Data ◆ Machine Learning ➔ Fonctionnelle ◆ Stratégie de la micro décision ◆ Marketing ➔ Métier ◆ Relation client ◆ Force de vente
  • 3. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Présentation des intervenants Romain Jouin 06 52 86 87 30 – romain.jouin@memorandum.pro 3 • Romain a une double culture : • Informatique : développement logiciels • Commerciale : chasse de clients et développement de portefeuille − … Compétences principales Valorisation des données • …., Montage projets de industriels big data (Institut Mines Telecom) • …. Expertise métier … Compétences sectorielles Quelques références Mastère Big Data Telecom Paristech 2014 Formation − … Parcours − .. − Développement informatique : web, infrastructures, Machine Learning (Python) − Processus de vente : démarches commerciales, processus d’élevage / chasse Compétences principales Valorisation des données • Acteur de l’assurance: évaluation du risque de churn – 200 millions de lignes à analyser • Acteurs de la santé : Prédiction de concentrations moléculaires • Evolution de la satisfaction client : déceler les différences de tendances dans un réseau de distribution • Acteur de l’énergie : scrapping web et analyse de l’e-réputation sur les forums Français • Cabinet de conseil : Formation aux Big Data • École d’ingénieur : Initiation aux technologies du Big Data et à la Datavisualisation Participation à l’écosystème Data sur Paris • Animateur de groupes d’intérêts autour de la Data (plus de 2000 personnes à Paris). 15 événements organisés depuis Octobre 2014. Expertise métier Informatique • Développement web full-stack Python & Jquery • Gestion d’infrastructure Big Data : Hadoop / Spark / Mesos / Docker Commerce • Choix des marchés stratégiques - Plan d’attaques du marché • Reporting (>15 Meur) - Prévision annuel du CA • Chasse - Présentation clients - Ajustement des prix • Gestion d’équipes de consultants Compétences sectorielles Quelques références Mastère Big Data Telecom Paristech 2014 INT école de Management 2006 Formation − 2 ans en tant que Freelance en informatique (sites web, macros…) − 3 ans en tant que Business Developer de la branche Network Integration Services chez Alactel- Lucent Russie − 2 ans de Chargé d’affaires chez Toshiba Cloud Services France Parcours − Télécommunications / Cloud − Web
  • 4. 1. Pourquoi Spark ? 2. Installer un cluster Spark 3. Hadoop et HDFS 4. Spark Core (RDD) 5. Spark SQL 6. Spark ML 6.1. Introduction au ML 6.2. Spark ML - intro 6.3 Clustering 6.4 Régression 6.5 Classification 7. Spark Streaming 1. Concepts 2. Ecoute de socket 3. Opérations : StateLess / StateFull / Union 4. ML en temps réel Spark - 4 jours d’introduction Juin 2017 Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation 8. Bonus : 1. Export dans Mongo 2. Aperçu de Flume 3. Aperçu de Kafka 4. Aperçu d’Hortonworks 9. Conclusion 4
  • 5. 5Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Introduction aux technologies Big Data Volume Variété2 Vitesse3 Eco-System Hadoop4 11
  • 6. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Cette année nous fêtons les 80 ans de l’informatique 1936 : Alan Turing 1968 : Intel 1972 : Internet 1977 : Oracle 1992 : Internet = 1 million de PCs 1995 : MySQL / PostGreSQL 1996 : Internet = 36 millions de PCs 2000 : Internet = 360 millions de Pcs 2007 : Iphone 2015 : 2 milliards de smartphones 2020 : 50 milliards d’objets connectés ? Linux Vm Ware Map Reduce Dev - Ops Docker 6
  • 7. 7Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Où vont les données ? Sur des disques ! 7 http://www.mkomo.com/assets/hd-cost-graph-small.png
  • 8. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation ➢Les interfaces de connexion au disque dur: • IDE-ATA : 133 Mo/s ( obsolète ) • SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé ) • S-ATA : de 150 à 600 Mo/s ( standard actuel ) ➢Carte mères : 500 eur • 2 x SATA3 6.0 Gb / s • 8 x SAS2/SATA3 6.0 Gb / s ➢Taille des disques : 6 To – 300 euros ➢Configuration : 60 To max / 3500 euros ➢Temps de lecture : • Théorique : 100 000 secondes / 27 heures • Pratique : Deux ou trois fois plus lent : environ 3 jours IDE-ATA SCSI S-ATA=> Combien de temps pour tout lire ? La meilleure config sur Rue du Commerce : 60 To 8
  • 9. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation IBM Benchmark ( 2011) : 480 disques ! 9
  • 10. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation IBM Benchmark ( 2011) : 480 disques ! 10
  • 11. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation IBM Benchmark ( 2011) : 480 disques ! 480 disques de 146 Gb : 71 Tb 15 K RPM 14 Gb / s 5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ? => A quel prix ? 11
  • 12. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation MTBF : Mean Time Before Failure 100 disques | MTBF 5 ans = 20 pannes / an Soit un disque à changer toutes les 2 semaines. Risques : 1. Coût 2. Instabilité du système 3. Perte d’information ! Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3 Si un disque tombe en panne, on retrouve l’information sur un des deux autres disques. 12
  • 13. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe ! 13
  • 14. 14Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 11 14
  • 15. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Des sources de plus en plus diverses 15
  • 16. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation La fin d’un monde 1950 - 2009 2015 JSON 16
  • 17. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation La fin d’un monde 1950 – 2009 Systèmes de gestion de bases de données 2015 Système de fichier distribué Logiciel Vs OS Contrainte = nom de fichier unique et formatage, type d’enregistrement Vs logique de la donnée JSON Hadoop Sequence File Problèmes de scalabilité horizontale Limites liées à l’OS Fortes contraintes de données 100 G en csv => 10 G en parquet
  • 18. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Formalisme JSON : clef : valeur { « nom » : « jouin » , « prénom » : « romain » , « adulte » : true , « adresse » : { « ville » : « paris » , « cp » : « 75013 »} } 18
  • 19. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Des caractéristiques différentes ... 1950 - 2009 1950 2010 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra 19
  • 20. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Pour de nouveaux usages : 1950 - 2009 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra 20 1950 2010 2015
  • 21. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Un vocabulaire qui change : 1950 - 2009 Online Transaction Processing MCD / Schéma / Relationnel UML / MERISE Référentiel / dictionnaires de données SQL Triggers Silos / Logiciels / Licences / BI Online Analytical Processing NoSQL / Schemaless Machine Learning / Prédictif Apprentissage (Non) Supervisé Partage / API / Open Sources / Dashboard / Data Visualisation 21 1950 2010 2015
  • 22. 22Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 11 22
  • 23. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Loi d’Amdhal : Soit un programme : • P = % possible en parallèle sans synchronisation (dans [ 0, 1[ ) • N = nombre de processeurs • 1 = durée nécessaire pour effectuer l’algorithme avec un processeur Gain possible en temps : • Gain sur P = P/N < P < 1 • Partie sur laquelle on ne peut rien gagner : 1 – P < 1 • Durée nécessaire : (1-P) + P/N <1 • Accélération possible : 1 / Durée nécessaire > 1 • Exemples : • 95% parallélisable : P = 0.95 • 100 processeurs : N = 100 • Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide • Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide Coordination complexe Dans les systèmes parallèles 23
  • 24. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Jusqu’en 2004 la solution était d’acheter un ordinateur « plus gros » En 2004 Google propose d’utiliser plusieurs ordinateurs
  • 25. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe ! 25
  • 26. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation @IP 1 @IP 4@IP 2 @IP 3 26 HDFS : distribuer le stockage Un Un, deux, Un, deux, trois Un, deux, trois, quatre Un, deux, Un, deux, trois, quatre UnB1 B2 Un, deux, troisB3 B4 Un, deux, trois, quatreB4Un, deux, trois, quatreB4 Un, deux, troisB3 Un, deux, troisB3 Un, deux,B2 Un, deux,B2 Un, deux, troisB3 Un, deux, trois, quatreB4 Un, deux,B2 UnB1 UnB1 UnB1 @IP 1 @IP 1 @IP 1 @IP 2 @IP 2 @IP 3 @IP 3 @IP 4 @IP 4 @IP 2 @IP 3 @IP 4 FS Image
  • 27. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation mapmapmapmapmap Ordinateur OrdinateurOrdinateur Ordinateur Ordinateur Calcul calcul worker master workerworkerworker 27
  • 28. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Map Pour chaque mot du fichier, renvoyer le mot associé à la valeur 1 Mode « clef :valeur » Clef = un mot Valeur = 1 Nombre de « clef:valeur » = Nombre de mots dans le fichier Compter le nombre d’occurrences des mots dans un fichier en Map reduce 28 (Sort) Regrouper ensemble les paires « clef : valeur » qui ont la même clef Faire une liste par clef Nombre de liste = nombre de mot différent dans le fichier Reduce Pour chaque liste, additionner toutes les valeurs
  • 29. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Ordinateur OrdinateurOrdinateur Ordinateur Ordinateur worker Un Un, deux, Un, deux, trois Un, deux, trois, quatre workerworker map map map map master worker sort reduce { « un » : 1 } { « un » : 1 « deux » : 1 } { « un » : 1 , « deux » : 1 , « trois » : 1 , } { « un » : 1 , « deux » : 1 , « trois » : 1 , « quatre » : 1 , } Compter le nombre d’occurrence Des mots dans un fichier en Map reduce 29
  • 30. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Ordinateur OrdinateurOrdinateur Ordinateur Ordinateur worker Un Un, deux, Un, deux, trois Un, deux, trois, quatre workerworker map map map map master worker sort reduce { « un » : 1 } { « un » : 1, « deux » : 1 } { « un » : 1 , « deux » : 1 , « trois » : 1 } { « un » : 1 , « deux » : 1 , « trois » : 1 , « quatre » : 1 } { « un » : 1 , « un » : 1 , « un » : 1 , « un » : 1 } { « deux » : 1 , « deux » : 1 , « deux » : 1 } { « trois » : 1 , « trois » : 1} { « quatre » : 1} 30 Compter le nombre d’occurrence Des mots dans un fichier en Map reduce
  • 31. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Ordinateur OrdinateurOrdinateur Ordinateur Ordinateur worker Un Un, deux, Un, deux, trois Un, deux, trois, quatre workerworker map map map map master worker sort For each key, sum of attached values { « un » : 1 } { « un » : 1, « deux » : 1 } { « un » : 1 , « deux » : 1 , « trois » : 1 } { « un » : 1 , « deux » : 1 , « trois » : 1 , « quatre » : 1 } { « un » : 1 , « un » : 1 , « un » : 1 , « un » : 1 } { « deux » : 1 , « deux » : 1 , « deux » : 1 } { « trois » : 1 , « trois » : 1} { « quatre » : 1} { « un » : 4 } { « deux » :3 } { « trois » : 2} { « quatre » : 1} 31 Compter le nombre d’occurrence Des mots dans un fichier en Map reduce
  • 32. 32Copyright © Mémorandum Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Cheminement du cours Volume Variété2 Vitesse3 Eco-système Hadoop4 11 32
  • 33. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Une histoire très rapide 33
  • 34. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation HADOOP 1.0 34
  • 35. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation HADOOP 2.0 35 Modèle en couche pour découpler l’accès au ressource de l’éxécution du calcul lui même Outil de stockage (celui que vous utilisez chez IBM ?) Début du streaming
  • 36. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation 36 Hadoop désigne autant un outil qu’un Eco-Système
  • 37. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Spark unifie les différentes briques software de l’écosystème hadoop Spark ML Lib Spark Graph X Core Spark RDD Java Scala Python R Spark SQL Spark Standalone 37
  • 38. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Hadoop est en train de disparaître, au profit de Spark 38
  • 39. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Support matters La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture 39
  • 40. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Support matters x 388 x 777 x 1314 40
  • 41. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Lambda architecture 9 000 € / Tb 20 € / Tb 41
  • 42. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Benchmark • http://www-bcf.usc.edu/~minlanyu/teach/csci599- fall12/papers/nsdi_spark.pdf 42
  • 43. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Analyse de données 43
  • 44. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Simplicité du code 44 Source : Spark in action (Manning)
  • 45. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Architecture des applications orientées data Interaction Data visualisation MatplotLib Seaborn d3js Bokeh Analyse Exploration Machine Learning Prédictif Clustering Décisions Graphes Amis Logistique Réseaux d’agences Flux Serveurs Logs Twitter Intégration Les « 6 C » Connecter Collecter API Filtrer Corriger Composer Nettoyer Aggréger Consommer Contrôler Analyser Stocker Persistence SQL Mysql PostGreSQL No SQL -> clef – valeur Riak, Redis -> orientée document MongoDB CouchBase -> orientée colonne HBase Cassandra -> orientée graph Neo4j Infrastructure Virtualisation VMWare, Virtual Box, Docker Scalabilité Cluster Intégration continue Dev Ops, Vagrant, Puppet 4545
  • 46. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation Architecture des applications orientées data Interaction Bokeh Analyse Spark SQL Spark ML Lib Spark GraphX Spark Streaming Intégration Sark SQL Blaze (python) Pandas (python) Persistence MongoDB Hadoop Infrastructure Hors scope 4646
  • 47. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation 47
  • 48. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation 48
  • 49. Copyright Mémorandum - Confidentiel - Toute reproduction interdite sans autorisation 49