SlideShare une entreprise Scribd logo
MorningTech #1 – BigData
le 15 décembre 2016 –Ludovic Piot
Les événements Oxalide
• Objectif : présentation d’une thématique métier ou technique
• Tout public : 80 à 100 personnes
• Déroulé : 1 soir par trimestre de 18h à 21h
• Introduction de la thématique par un partenaire
• Tour de table avec des clients et non clients
• Echange convivial autour d’un apéritif dînatoire
• Objectif : présentation d’une technologie
• Réservé aux clients : public technique avec laptop – 30
personnes
• Déroulé : 1 matinée par trimestre de 9h à 13h
• Présentation de la technologie
• Tuto pour la configuration en ligne de commande
• Objectif : présentation d’une thématique métier ou technique
• Réservé aux clients : 30 personnes
• Déroulé : 1 matin par trimestre de 9h à 12h
• Big picture
• Démonstration et retour d’expérience
Apérotech
Workshop
Morning Tech
Les speakers
Ludovic Piot
Conseil / Archi / DevOps @ Oxalide
@lpiot
Oxalide Recrute !
Contactez-nous	à	job@oxalide.com
Enjeux & tendances
SoLoMo et IoT – l’explosion de la data
SO
cial
LOcal
MO
bile
IoT – l’explosion de la data
!
Organizations are redefining data strategies due to the requirements of the
evolving Enterprise Data Warehouse (EDW).
Enterprise
Data
VoIP
Machine
Data
Social Media
Les 3V : les dimensions du Gartner
• Volume : Le volume de données crées et gérées est en constante
augmentation (+59% / an en 2011)
• Variété : Les types de données collectées sont très variés (texte, son, image,
logs…). Nécessité que les outils de traitement prennent en compte cette
diversité
• Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à
mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont
aucune valeur.
Les 2 nouveaux V émergeant :
• Véracité : dimension apportant une notion de qualité de la donnée pour le
métier
• Visibilité : pour souligner la nécessité que la data soit accessible pour le métier
afin de permettre la prise de décision rapide
Evolution des tendances de la BigData
batch
temps
réel
prédict
rapport alertes prévision
Principes
BigData vs. gestion traditionnelle des données
!
Traditional Systems vs. Hadoop
Traditional
Database
SCALE (storage & processing)
Hadoop
Distribution
NoSQL
MPP
Analytics
EDW
schema
speed
governance
best fit use
processing
Required on write Required on read
Reads are fast Writes are fast
Standards and structured Loosely structured
Limited, no data processing Processing coupled with data
data typesStructured Multi and unstructured
Interactive OLAP Analytics
Complex ACID Transactions
Operational Data Store
Data Discovery
Processing unstructured data
Massive Storage/Processing
Le stockage distribué
!
Data Pipeline
DataNode 1
Data Integrity – Writing Data
6. Success!
3.Data+
checksum
4. Verify
Checksum
4. Data and
checksum
5. Success! 5.Success!
DataNode 4 DataNode 12
Client
2. OK,
please use
DataNodes
1, 4, 12.
1. I want to
write a block
of data.
NameNode
Le théorème de CAP
Le Map/Reduce
!
MapReduce
Map$Phase$ Shuffle/Sort$
Mapper
$
Mapper
$
Mapper
$
Data$is$shuffled$
across$the$network$
and$sorted$
NM + DN
NM + DN
NM + DN
Reduce$Phase$
Reducer
$
Reducer
$
NM + DN
NM + DN
La table des latences
Le pipeline BigData
data answers
ingest /
collect
store process analyse
Time to answer (latency)
Throughput
Cost
La Lambda Architecture
Serving
Layer
Standardize, Cleanse, Integrate, Filter,
Transform
Batch
Layer
Extract & Load
Conform, Summarize, Access
Speed
Layer
•  Organize data
based on
source/derived
relationships
•  Allows for fault
and rebuild
process
•  There are lots of different ways of organizing data in an enterprise data
platform that includes Hadoop.
Evolution des traitements Big Data
http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big-data-architectural-patterns-and-best-practices-on-aws
Collect Store Analyse ConsumeETL
Hot
Warm
Hot
Cold
Hot
Hot
Hot
Slow
Ecosystème
Evolution des traitements Big Data
Evolution des traitements Big Data
Dataflow
Dataproc
BigQueryBigTable
CloudSQL
Cloud	
Pub/Sub
Demo Time
Amazon S3
http://bit.ly/2grJMMf
Shard 0
Amazon Kinesis
Amazon Cognito
Amazon EC2
R Shiny-Server
https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
Machine learning
& deep learning
La démarche de datascience
Le Machine Learning
• Jeu de données : labellisé (avec les réponses)
• Objectif d’apprentissage :
• Régression (prévision)
• Classification
Apprentissage
supervisé
Hypothèse et fonction de coût
But du jeu :
Trouver une fonction h qui représente fidèlement les données.
Régression linéaire :
ℎ 𝑥 = 𝜃% + 𝜃' 𝑥' + 𝜃( 𝑥( + ⋯ + 𝜃* 𝑥*
Le Machine Learning
• Jeu de données : non-labellisé (sans réponse)
• Objectif d’apprentissage :
• Identifier / détecter des structures dans les données
Apprentissage
non-supervisé
Algorithmes de classification
But du jeu :
Trouver l’algorithme qui
distingue au mieux les
structures dans les données.
Réseaux neuronaux
• Basés sur le fonctionnement
d’un cerveau
• Hypothèse non linéaire !
• Classification multi-classe
• Comme avant, on essaye
de minimiser la fonction de
coût en modifiant peu à
peu les coefficients Θ(i)
Questions ?
?
Sources
• [6, 10] : Hortonworks : Operations Management with HDP
• [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big-
data-architectural-patterns-and-best-practices-on-aws
Big Data : les domaines d’application
Objectifs recherchés :
• Collecter la donnée dès sa production (en temps réel)
• Conserver l’intégralité de la donnée, sans perte d’information
• Permettre l’exploitation a posteriori pour de nouveaux usages et/ou à travers de nouvelles technologies
Mise en œuvre :
• Collecte et nettoyage des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc.
• Stockage de la donnée dénormalisée dans Cassandra, HDFS, Hbase, Hive, AWS S3, Redshift
Datalake
Collecter et stocker la donnée
AWS S3HADOOPCASANDRA
Besoin recensé sur :
EasyBourse, L’Etudiant…
REDSHIFTHIVE HBASE KAFKA
Big Data : les domaines d’application
Objectifs recherchés :
• Collecter la donnée dès sa production (en temps réel)
• Traiter la donnée au fil de l’eau
• Permettre l’exploitation et la consultation immédiates des données traitées dans des outils de requête en
temps réel
Mise en œuvre :
• Collecte, nettoyage et traitement des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc.
• Stockage de la donnée traitée dans Cassandra, Redshift, ElasticSearch
Lambda architecture – Speed layer
Traiter immédiatement la donnée et la consulter en temps réel
SPARK
Besoin recensé sur :
EasyBourse, L’Etudiant…
FLUME STORMELASTICSEARCHCASANDRA REDSHIFT KINESIS
Big Data : les domaines d’application
DMP : Data Management Platform
Qualifier son audience
Objectifs recherchés :
• Personnalisation de contenus et de l'expérience utilisateur
Mise en œuvre :
• TBC
http://www.journaldunet.com/ebusiness/expert/58869/la-data-
management-platform--dmp----fonctionnalites-et-benefices-de-l-
exploitation-des-donnees.shtml
Besoin recensé sur :
L’Express, Kwanko, Le
Parisien, 20 min, …
Big Data : les domaines d’application
Objectifs recherchés :
• Explorer des jeux de données restreints pour identifier des caractéristiques
• Classifier les données selon des features détectées automatiquement
• Identifier automatiquement des groupes de données similaires
• Faire des prédictions basées sur les données existantes
Mise en œuvre :
• Mise en place d’outils d’exploration pour les datascientists : Jupyter, zeppelin, spark notebook, RStudio
• Mise en œuvre d’un datapipeline : kafka, yarn, scikit-learn, spark ml, R, H2O, graphlab,…
Machine Learning
Un pas vers l’IA
Besoin recensé sur :
Fjord, Qivivo
SCIKIT LEARNZEPPELINJUPYTER RYARN KAFKASPARK H2O

Contenu connexe

Tendances

Comment se préparer à la directive DSP2?
Comment se préparer à la directive DSP2?Comment se préparer à la directive DSP2?
Comment se préparer à la directive DSP2?
DataStax
 
Découvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des donnéesDécouvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des données
Precisely
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
Jean-Michel Franco
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
Valtech
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Amazon Web Services
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Denodo
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
Jean-Michel Franco
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
Denodo
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
Jean-Michel Franco
 
Big data
Big dataBig data
Big data
Yosra ADDALI
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
Romain Jouin
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
Isabelle Van Campenhoudt
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
CHAKER ALLAOUI
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
Novencia Groupe
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Neo4j
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
Denodo
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Denodo
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
Publicis Sapient Engineering
 

Tendances (20)

Comment se préparer à la directive DSP2?
Comment se préparer à la directive DSP2?Comment se préparer à la directive DSP2?
Comment se préparer à la directive DSP2?
 
Découvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des donnéesDécouvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des données
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Big data
Big dataBig data
Big data
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 

Similaire à Oxalide MorningTech #1 - BigData

Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
Oxalide
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Kezhan SHI
 
Big data
Big dataBig data
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
Idriss22
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile
agileDSS
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
Rima Jamli Faidi
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
Excelerate Systems
 
Procima deck 7 May 2014
Procima deck 7 May 2014Procima deck 7 May 2014
Procima deck 7 May 2014
Marc-Eric LaRocque
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
Paris Open Source Summit
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
Converteo
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
MongoDB
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
Soft Computing
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Excelerate Systems
 
Toutes les raisons d'adopter MongoDB
Toutes les raisons d'adopter MongoDBToutes les raisons d'adopter MongoDB
Toutes les raisons d'adopter MongoDB
Content Square
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
FastConnect
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 

Similaire à Oxalide MorningTech #1 - BigData (20)

Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data
Big dataBig data
Big data
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Procima deck 7 May 2014
Procima deck 7 May 2014Procima deck 7 May 2014
Procima deck 7 May 2014
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Toutes les raisons d'adopter MongoDB
Toutes les raisons d'adopter MongoDBToutes les raisons d'adopter MongoDB
Toutes les raisons d'adopter MongoDB
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 

Plus de Ludovic Piot

[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
Ludovic Piot
 
Devops, un tour d'horizon - Eutelsat 2018
Devops, un tour d'horizon -  Eutelsat 2018Devops, un tour d'horizon -  Eutelsat 2018
Devops, un tour d'horizon - Eutelsat 2018
Ludovic Piot
 
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
Ludovic Piot
 
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
Ludovic Piot
 
ClusterEurope2018 - Bootcamp Kubernetes - présentation
ClusterEurope2018 - Bootcamp Kubernetes - présentationClusterEurope2018 - Bootcamp Kubernetes - présentation
ClusterEurope2018 - Bootcamp Kubernetes - présentation
Ludovic Piot
 
A quick comparison of managed kubernetes services at public cloud providers'
A quick comparison of managed kubernetes services at public cloud providers'A quick comparison of managed kubernetes services at public cloud providers'
A quick comparison of managed kubernetes services at public cloud providers'
Ludovic Piot
 
CloudExpo Europe 2017 - DevOps entre client et fournisseur
CloudExpo Europe 2017 - DevOps entre client et fournisseurCloudExpo Europe 2017 - DevOps entre client et fournisseur
CloudExpo Europe 2017 - DevOps entre client et fournisseur
Ludovic Piot
 
DevOps, quel futur pour les Ops ?
DevOps, quel futur pour les Ops ?DevOps, quel futur pour les Ops ?
DevOps, quel futur pour les Ops ?
Ludovic Piot
 
Oxalide Workshop #5 - Docker avancé & Kubernetes
Oxalide Workshop #5 - Docker avancé & KubernetesOxalide Workshop #5 - Docker avancé & Kubernetes
Oxalide Workshop #5 - Docker avancé & Kubernetes
Ludovic Piot
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performance
Ludovic Piot
 
Cloud hybridation leveraging on Docker 1.12
Cloud hybridation leveraging on Docker 1.12Cloud hybridation leveraging on Docker 1.12
Cloud hybridation leveraging on Docker 1.12
Ludovic Piot
 
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassinOxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
Ludovic Piot
 
Oxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overviewOxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overview
Ludovic Piot
 
Docker meetup - PaaS interoperability
Docker meetup - PaaS interoperabilityDocker meetup - PaaS interoperability
Docker meetup - PaaS interoperability
Ludovic Piot
 
PerfUG 3 - perfs système
PerfUG 3 - perfs systèmePerfUG 3 - perfs système
PerfUG 3 - perfs système
Ludovic Piot
 

Plus de Ludovic Piot (15)

[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
[Capitole du Libre] #serverless -  mettez-le en oeuvre dans votre entreprise...
 
Devops, un tour d'horizon - Eutelsat 2018
Devops, un tour d'horizon -  Eutelsat 2018Devops, un tour d'horizon -  Eutelsat 2018
Devops, un tour d'horizon - Eutelsat 2018
 
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
(RivieraDev 2018) #serverless - 2 ans de retourS d'expérience
 
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
DevoxxFR 2018 #serverless - Mettez-le en œuvre dans votre entreprise et arriv...
 
ClusterEurope2018 - Bootcamp Kubernetes - présentation
ClusterEurope2018 - Bootcamp Kubernetes - présentationClusterEurope2018 - Bootcamp Kubernetes - présentation
ClusterEurope2018 - Bootcamp Kubernetes - présentation
 
A quick comparison of managed kubernetes services at public cloud providers'
A quick comparison of managed kubernetes services at public cloud providers'A quick comparison of managed kubernetes services at public cloud providers'
A quick comparison of managed kubernetes services at public cloud providers'
 
CloudExpo Europe 2017 - DevOps entre client et fournisseur
CloudExpo Europe 2017 - DevOps entre client et fournisseurCloudExpo Europe 2017 - DevOps entre client et fournisseur
CloudExpo Europe 2017 - DevOps entre client et fournisseur
 
DevOps, quel futur pour les Ops ?
DevOps, quel futur pour les Ops ?DevOps, quel futur pour les Ops ?
DevOps, quel futur pour les Ops ?
 
Oxalide Workshop #5 - Docker avancé & Kubernetes
Oxalide Workshop #5 - Docker avancé & KubernetesOxalide Workshop #5 - Docker avancé & Kubernetes
Oxalide Workshop #5 - Docker avancé & Kubernetes
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performance
 
Cloud hybridation leveraging on Docker 1.12
Cloud hybridation leveraging on Docker 1.12Cloud hybridation leveraging on Docker 1.12
Cloud hybridation leveraging on Docker 1.12
 
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassinOxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
 
Oxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overviewOxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overview
 
Docker meetup - PaaS interoperability
Docker meetup - PaaS interoperabilityDocker meetup - PaaS interoperability
Docker meetup - PaaS interoperability
 
PerfUG 3 - perfs système
PerfUG 3 - perfs systèmePerfUG 3 - perfs système
PerfUG 3 - perfs système
 

Oxalide MorningTech #1 - BigData

  • 1. MorningTech #1 – BigData le 15 décembre 2016 –Ludovic Piot
  • 2. Les événements Oxalide • Objectif : présentation d’une thématique métier ou technique • Tout public : 80 à 100 personnes • Déroulé : 1 soir par trimestre de 18h à 21h • Introduction de la thématique par un partenaire • Tour de table avec des clients et non clients • Echange convivial autour d’un apéritif dînatoire • Objectif : présentation d’une technologie • Réservé aux clients : public technique avec laptop – 30 personnes • Déroulé : 1 matinée par trimestre de 9h à 13h • Présentation de la technologie • Tuto pour la configuration en ligne de commande • Objectif : présentation d’une thématique métier ou technique • Réservé aux clients : 30 personnes • Déroulé : 1 matin par trimestre de 9h à 12h • Big picture • Démonstration et retour d’expérience Apérotech Workshop Morning Tech
  • 3. Les speakers Ludovic Piot Conseil / Archi / DevOps @ Oxalide @lpiot
  • 6. SoLoMo et IoT – l’explosion de la data SO cial LOcal MO bile
  • 7. IoT – l’explosion de la data ! Organizations are redefining data strategies due to the requirements of the evolving Enterprise Data Warehouse (EDW). Enterprise Data VoIP Machine Data Social Media
  • 8. Les 3V : les dimensions du Gartner • Volume : Le volume de données crées et gérées est en constante augmentation (+59% / an en 2011) • Variété : Les types de données collectées sont très variés (texte, son, image, logs…). Nécessité que les outils de traitement prennent en compte cette diversité • Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont aucune valeur. Les 2 nouveaux V émergeant : • Véracité : dimension apportant une notion de qualité de la donnée pour le métier • Visibilité : pour souligner la nécessité que la data soit accessible pour le métier afin de permettre la prise de décision rapide
  • 9. Evolution des tendances de la BigData batch temps réel prédict rapport alertes prévision
  • 11. BigData vs. gestion traditionnelle des données ! Traditional Systems vs. Hadoop Traditional Database SCALE (storage & processing) Hadoop Distribution NoSQL MPP Analytics EDW schema speed governance best fit use processing Required on write Required on read Reads are fast Writes are fast Standards and structured Loosely structured Limited, no data processing Processing coupled with data data typesStructured Multi and unstructured Interactive OLAP Analytics Complex ACID Transactions Operational Data Store Data Discovery Processing unstructured data Massive Storage/Processing
  • 12. Le stockage distribué ! Data Pipeline DataNode 1 Data Integrity – Writing Data 6. Success! 3.Data+ checksum 4. Verify Checksum 4. Data and checksum 5. Success! 5.Success! DataNode 4 DataNode 12 Client 2. OK, please use DataNodes 1, 4, 12. 1. I want to write a block of data. NameNode
  • 15. La table des latences
  • 16. Le pipeline BigData data answers ingest / collect store process analyse Time to answer (latency) Throughput Cost
  • 17. La Lambda Architecture Serving Layer Standardize, Cleanse, Integrate, Filter, Transform Batch Layer Extract & Load Conform, Summarize, Access Speed Layer •  Organize data based on source/derived relationships •  Allows for fault and rebuild process •  There are lots of different ways of organizing data in an enterprise data platform that includes Hadoop.
  • 18. Evolution des traitements Big Data http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big-data-architectural-patterns-and-best-practices-on-aws Collect Store Analyse ConsumeETL Hot Warm Hot Cold Hot Hot Hot Slow
  • 21. Evolution des traitements Big Data Dataflow Dataproc BigQueryBigTable CloudSQL Cloud Pub/Sub
  • 22. Demo Time Amazon S3 http://bit.ly/2grJMMf Shard 0 Amazon Kinesis Amazon Cognito Amazon EC2 R Shiny-Server https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
  • 24. La démarche de datascience
  • 25. Le Machine Learning • Jeu de données : labellisé (avec les réponses) • Objectif d’apprentissage : • Régression (prévision) • Classification Apprentissage supervisé
  • 26. Hypothèse et fonction de coût But du jeu : Trouver une fonction h qui représente fidèlement les données. Régression linéaire : ℎ 𝑥 = 𝜃% + 𝜃' 𝑥' + 𝜃( 𝑥( + ⋯ + 𝜃* 𝑥*
  • 27. Le Machine Learning • Jeu de données : non-labellisé (sans réponse) • Objectif d’apprentissage : • Identifier / détecter des structures dans les données Apprentissage non-supervisé
  • 28. Algorithmes de classification But du jeu : Trouver l’algorithme qui distingue au mieux les structures dans les données.
  • 29. Réseaux neuronaux • Basés sur le fonctionnement d’un cerveau • Hypothèse non linéaire ! • Classification multi-classe • Comme avant, on essaye de minimiser la fonction de coût en modifiant peu à peu les coefficients Θ(i)
  • 31. Sources • [6, 10] : Hortonworks : Operations Management with HDP • [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big- data-architectural-patterns-and-best-practices-on-aws
  • 32. Big Data : les domaines d’application Objectifs recherchés : • Collecter la donnée dès sa production (en temps réel) • Conserver l’intégralité de la donnée, sans perte d’information • Permettre l’exploitation a posteriori pour de nouveaux usages et/ou à travers de nouvelles technologies Mise en œuvre : • Collecte et nettoyage des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc. • Stockage de la donnée dénormalisée dans Cassandra, HDFS, Hbase, Hive, AWS S3, Redshift Datalake Collecter et stocker la donnée AWS S3HADOOPCASANDRA Besoin recensé sur : EasyBourse, L’Etudiant… REDSHIFTHIVE HBASE KAFKA
  • 33. Big Data : les domaines d’application Objectifs recherchés : • Collecter la donnée dès sa production (en temps réel) • Traiter la donnée au fil de l’eau • Permettre l’exploitation et la consultation immédiates des données traitées dans des outils de requête en temps réel Mise en œuvre : • Collecte, nettoyage et traitement des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc. • Stockage de la donnée traitée dans Cassandra, Redshift, ElasticSearch Lambda architecture – Speed layer Traiter immédiatement la donnée et la consulter en temps réel SPARK Besoin recensé sur : EasyBourse, L’Etudiant… FLUME STORMELASTICSEARCHCASANDRA REDSHIFT KINESIS
  • 34. Big Data : les domaines d’application DMP : Data Management Platform Qualifier son audience Objectifs recherchés : • Personnalisation de contenus et de l'expérience utilisateur Mise en œuvre : • TBC http://www.journaldunet.com/ebusiness/expert/58869/la-data- management-platform--dmp----fonctionnalites-et-benefices-de-l- exploitation-des-donnees.shtml Besoin recensé sur : L’Express, Kwanko, Le Parisien, 20 min, …
  • 35. Big Data : les domaines d’application Objectifs recherchés : • Explorer des jeux de données restreints pour identifier des caractéristiques • Classifier les données selon des features détectées automatiquement • Identifier automatiquement des groupes de données similaires • Faire des prédictions basées sur les données existantes Mise en œuvre : • Mise en place d’outils d’exploration pour les datascientists : Jupyter, zeppelin, spark notebook, RStudio • Mise en œuvre d’un datapipeline : kafka, yarn, scikit-learn, spark ml, R, H2O, graphlab,… Machine Learning Un pas vers l’IA Besoin recensé sur : Fjord, Qivivo SCIKIT LEARNZEPPELINJUPYTER RYARN KAFKASPARK H2O