DATALAKE

DE L’IDÉE À LA PLATE-FORME
1
07 / 03 / 2016



Vincent Heuschling

CEO Affini-Tech

vhe@affini-tech.com

@vhe74
DATALAKE ???
N’est pas un datawarehouse moderne.
Est flexible et agile.
Absorbe tous les flux d’informations 

internes et externes.
Permet de construire des pipelines et
services de données.
Permet d’experimenter.
2
E.T.L. IS DEAD !
THINK E.L.T.
3
Charger les données brutes
Les nettoyer et les normaliser
Construire des pipelines de transformation
DATA PIPELINES
4
Collecter
Nettoyer
Explorer
Agréger
Machine-
learning
Visualiser
Servir
SCALE 

DATA PIPELINES
5
Collecter
Nettoyer
Explorer
Agréger
Machine-
learning
Visualiser
Servir
}x N
KEY FEATURES
6
STORE
COMPUTE RESSOURCES
EXPLORE 

& EXPERIMENTCOLLECT

( EXTRACT & LOAD )
TRANSFORM & PROCESS
EXPOSE 

( WEBSERVICE & SQL )
INDEX & CATALOG
DETAILS
7
Raw
data
Clean &
structured
Structured

models
Analytics
Applications
Business
Domain
Datalake
{
Datascience tools
Machine Learning
External DB
Collectors
REAL-TIME ?
8
Raw
data
Clean &
structured
Structured

models
Analytics
Applications
Business
Domain
Datalake
Collectors
{
Datascience tools
Machine Learning
External DB
Real-time Applications

& Partenaires
NOTEBOOKS
9
Datalake
Notebooks
10
SOLUTIONS
11
SOLUTIONS
12
Storage
NoSql :
Hadoop :
Cloud : Object Storage
SOLUTIONS
13
???
NOTEBOOKS
CASSANDRA
14
HADOOP
15
MAPR-FS
NFS

+
Kafka
16
Cloud StorageMachines
Virtuelles
Machines
Virtuelles Bigquery (sql)
Data-visualisation
Data-science
?
?
CLOUD
COMMENT ?
17
SCRUM
18
AGILITÉ
19
Question
Experiment

& Code
Experiment

& Code
Test
Run?
AGILITÉ
20
Question
Experiment

& Code
Experiment

& Code
Test
Run?
?
?
? New project
SPRINTS
21
3 GRANDES ETAPES
22
Construire une roadmap
Quels sont les leviers pour
améliorer l’efficacité avec la
Data ?
Quelles innovations sont
possibles avec la Data ?
1 Imaginer 2 Experimenter
Passer de l’intuition à la
conviction
Démontrer les ROI
Mener des PoC sur un mois
Technologies
Data-science
3 Construire
Construire les outils et
services innovants
Mettre en oeuvre des
plateformes de données
globales.
GO !
23
Démarrer avec du KPI / Reporting
Un use-case simple (en jours !)
Trouver des use-cases Data-Science
Itérer…
MERCI
Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@affini-tech.com
Web : http://www.affini-tech.com
Twitter : @affinitech & @vhe74
24

Datalake de l'idée à la plateforme