Data Lake

© Soft Computing – www.softcomputing.com
Le Data Lake : révolution de la data science, complément au
Data Warehouse ou simple buzz marketing ?
Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien :
concepts, outils, organisation, retours d’expérience.
19/11/2015

© 2
Vos interlocuteurs
Frédéric PERONNE
Directeur Associé
Sylvain BELLIER
Directeur Marketing Services

© 3
Le Data Lake : révolution de la data science, complément au
Data Warehouse ou simple buzz marketing ?
Séminaire le 19 novembre 2015
Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien :
concepts, outils, organisation, retours d’expérience.
La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies
Big Data pour stocker en vrac.
Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en
pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data
warehouse, complémentarité, redondance ou compétition ?
Soft Computing vous invite à un séminaire gratuit afin de partager notre vision et nos expériences
clients autour de ces sujets.
Agenda : 08h45 – 11h00
 Data lake : de quoi parle-t-on ?
 Data lake : les promesses et les risques.
 Déployer un data lake en un mois, cas pratique.
 Démarche, pièges à éviter, retours d’expérience.
 Conclusion
A propos
Soft Computing est une entreprise de Services du Numérique spécialiste en Digital, Big Data, et CRM, réunissant près de 400 consultants, délivrant des
prestations de Conseil, de Technologie et de Marketing Services.
Soft Computing est coté sur NYSE Euronext Paris - Code ISIN : FR0000075517 - Symbole : SFT.
Cet événement est réservé aux clients et prospects Soft Computing. Pour tout autre profil, l'inscription sera soumise à validation.
Soft Computing |55 quai de Grenelle|75015 Paris|01 73 00 55 00 | www.softcomputing.com
Modalités :
Ce séminaire aura lieu dans les
locaux de Soft Computing.
Ou via notre site:
www.softcomputing.com

© 4
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les risques
4. Data lake : cas d’usages
5. Data Lake : démarche, pièges à éviter, retours d’expérience
6. Data Lake : pour avancer

© 6
Compétences : un mix unique de compétences pointues
Digital
Marketing
Data
Science
Project
Management
Information
Technologies
Digital - Big Data - CRM

© 7
Mission : transformer la data en performance
Business
IT
Imaginer, bâtir et opérer
des programmes de conquête et de fidélisation
cross-canaux, rentables et innovants
Concevoir, développer et déployer
des solutions Digitales, Big Data et CRM
performantes, pragmatiques et adaptées
AMOA

© 8
Delivery : continuum de services et souplesse
Think Build Run
Délégation
d’expertise
Mode
Projet
Centre de
services

© 9
Programme relationnel
multi-devices et
remarketing.
Ecoute et analyse des
sentiments des clients
sur les réseaux sociaux.
Centre de services de
gestion des campagnes
marketing multicanal.
Data Management
Platform et marketing
multicanal temps réel.
Centre de services
datamining, campagnes
ciblées et reportings.
Gestion des opérations
marketing ciblées.
Data Management
Platform, CRM et
web analytics.
Conception de
l’architecture
décisionnelle hybride
big data –
datawarehouse.
Centre de services
gestion de campagnes
marketing et
connaissance clients.
Convergence des
pratiques et des outils
marketing on et offline.
Mise en place d’une
Data Management
Platform (DMP) et de
use cases marketing.
Déploiement d’une
plate-forme CRM multi-
marques multi-pays.
Personnalisation temps
réel des contenus et
valorisation d’audience.
Définition d’une
stratégie de Business
Intelligence.
Pilotage de la qualité
de l’expérience client.
Extraits de références 2014-2015

© 10
Experts reconnus
blog.softcomputing.com/
fr.slideshare.net/softcomputing
twitter.com/#!/SoftComputing
linkedin.com/company/soft-computing
facebook.com/softcomputing
softcomputing.com/fr/news/
InformerEcrire Enseigner

© 11
SOMMAIRESommaire
1. Introduction

© 12
Défi technique #1 : se préparer à gérer des volumes inimaginables
2005 2015

© 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interrompt »
Cohérence
« Les commits
rendent l’ensemble
des données
cohérentes »
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Commit en
2 phases

© 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Demand Side
Platform
(DSP)
Ad exchange
(Adex)
Supply Side
Platform
(SSP)
Annonceur
ou Agence
média
Ad Server de
l’éditeur ou
Ad network
RTB &
programmati
que

© 15
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open SourceDistributions
Données AnalyseVisualisation Application
EMR
Bigquery
Professionnal services (tec & biz)

© 16
On aborde la vallée des désillusions
Big Data

© 18
Data lake : c’est quoi encore
cette nouvelle invention ?

© 19
Data Lake : c’est quoi ?
Transactionnel
Data Warehouse
Data lake
Pas de structure pré-déterminée
Pas de préjugés sur les traitements
Donnée structurées ET non structurées
Sources internes ET autres
Stockage document (type Hadoop)
Historisation
Haute volumétrie
Schéma en étoile
Optimisé/traitements
déterministe
Donnée structurées
Sources internes
Stockage relationnel

© 20
Mais pourquoi tout stocker sans savoir pourquoi ?
« Since the inception
of ebay, not a single
data was deleted ! »
#1 : ça peut servir un jour. En
plus, ils le font tous dans la
Silicon Valley.
#2 : et puis, vu ce que ça coûte
maintenant, ce serait dommage
de s’en priver.
« le prix du stockage
baisse de 40% par an,
soit une division par
1000 en 15 ans »

© 21
Une finalité et la réalité business quand même
Améliorer la performance
de détection / de prévision
avec des données exogènes
Agilité, pertinence, auto
apprentissage
Personnalisation one to oneIdentifier et optimiser les
parcours omnicanaux
#3 : Créer de la valeur autour des données

© 22
SOMMAIRESommaire
1. Introduction

© 23
Quelle promesse ?
Si la puissance de traitement est
illimitée …
… alors, il est possible de créer les
relations à la volée dans les
requêtes

© 24
On y met quoi dans un data lake ?
Données des
SI
Données du Data
Warehouse
Tweets
Assets
digitaux
Logs webs
Open Data
Documents Office
Messagerie historisée
Calculs
datascientists

© 25
Démocratisation : de plus en plus de données en libre service

© 26
Démocratisation : de plus en plus de données à coût modique

© 27
Et on s’y retrouve comment dans toutes ces données ?

© 28
Et si on ne sait pas programmer ?
Self Service BI :
Découverte de relations
Langage naturel

© 29
Et si on ne sait pas programmer ?
Datavisualisation :
Ergonomie utilisateur
Génération des requêtes Big Data

© 30
Et si on ne sait pas programmer ? : analytique ML en cloud

© 31
Et si on ne sait pas programmer ? : ML « as a service »

© 32
Comment est assurée la qualité des données dans un data lake ?

© 33
Finalement, on fait quoi d’un data lake ?
MarketingDatascience Programmation
Stocker
Explorer
Transformer
Modéliser
Appliquer

© 34
Et il faut quoi pour travailler sur un data lake ?
Query BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Couche d’accès

© 35
Connecteurs
Loader
Couche d’accès
Query
StockerExplorerTransformerModéliserAppliquer
BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Fonctions * outillage

© 36
Comment mon datalake s’intègre dans mon architecture applicative ?
DWH
RCU
Data lake /
Exploratoire
Bacs à sable /
Analytique
DMP (Cloud)
• Collecte et réconciliation des id et
évènements digitaux
• Ciblage d’audience
• Envoi cibles vers DSP pour display/RTB
• Reporting
EMA – Campagnes indus. et omnicanal
• Ciblage
• Paramétrage des campagnes
• Push sur les canaux, test&learn
• Cohérence de communication
• Gestion de la pression commerciale
CMS
Moteur reco produit
Moteur Mktg (décision
tps réel
message/offre/canal sur
sollicitation entrante)
3d party
• Enrich.
profils
• Extension
d’audience
Base étude
Réservoir
de
données
SIO
SIO
APIAPI
APIAPI
Analyse
exploratoire,
datavisualisation
Etudes, Datamining Reporting
DMT dynamique alimenté en
temps réel ou asynchrone
(Profils et id clients)
Ventes, Màj réfs. …
Webana
TMS
Evènements
digitaux
(réaction, logs)
Enrich.
Data CRM
Réf. Digital
Data collectées/réconciliées
Ciblages
Données de diffusion (print)
Cibles identifiées vers
display (adhoc)
Cibles identifiées vers canaux
internes (adhoc)
Fiches
clients
Id clients et critères
clés
(pré-ciblage)
Ciblages,
retours
campagnes,
Repoussoirs
Display/RTB
DSP
API
DSP
API
CWH
SMSEmail Push mobileGRC
Eventprocessing

© 37
Synthèse des points clés du Datalake
+
Données
Détail
Temps réel
Prédictif
Non-
structuré
Ouvert sur
l’extérieur
Autonome
Hybride

© 39
Architecture globale
Lab data Large Data Fast Data
Prototyper l’algorithme
Produire les résultats
Suivre et optimiser la
performance l’algorithme
Proposer des substitutions
Intégrer l’algorithme
Développer l’algorithme

© 41
Données :
DigitalesCRM
Penser applications opérationnelles et débuter simple
R.O.I.
Connaissance
Productivité opérationnelle
Analyses ad’hoc
Vision produit Vision clients
Technologies
1
2
3
4
ModélisationRéconciliation
Externes

© 45
Combien ça coûte ?
X * 100 K€ / an
Batch
As a service
X * 1 M€ / an
Industrialisation
Temps réel
Datawahouse+big data

© 48
Comment débuter, avec tous ces nouveaux enjeux opérationnels,
Et malgré tous les freins ?
 Captation de la donnée sur les canaux numériques :
– Stratégie de taggage
– Stratégie de cookiefication
– Créer un master ID marketing
 Analyse :
– Enrichir les modèles de connaissance clients actuels
– Intégrer les opportunités offertes par les nouvelles données
 Activation :
– Optimiser / internaliser la gestion des achats médias
– Construire un contrat relationnel avec mes clients
– Garantir la cohérence de communication cross canaux
 Mesure :
– Quels KPI’s de performance ?
– Quels modèles d’attribution ?
– Quels taux de ROI ?
 …

© 49
Pour créer les conditions de l’appropriation : Testez, Utilisez, Vérifiez…
Avec l’offre « Soft Computing DataLakeReady »
Découvrir les nouvelles solutions logiciels et systèmes
Acquérir des compétences
Identifier les enjeux technologiques
Collecter de nouveaux types de données
Conserver, historiser, garder à disposition, sécuriser les datas
Découvrir les opportunités et gisements de valeurs
Modéliser des uses case à forte valeur
Tester leur mise en œuvre avec un faible TTM et des coûts réduits
Déployer des pilotes opérationnels et mesurer la réalité des ROI

© 50
Libérer les opportunités: log, stream, transaction
Streams sociaux Weblogs Capteurs E-mails
Transactions Pages web Documents scannés Trace GPS
Données de marché Enregistrements Video-surveillance Données d’usage

© 51
Soft computing : un continuum de services complets
Valorisation
des
données
Fondations
Roadmap
Architecture
Convergence BI/Big Data
Définition de solutions
Mise en œuvre et intégration
Analyses sémantiques, prédictives
Visualisation de données
Labs, Data scientists
Conseil / Use case
Infrastructure à la
demande
Mise à disposition de
solutions Big Data
Pocs Hadoop
Cloud privé, hébergement
Transformation
du SI
Accompa-
gnement au
changement

Data Lake

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Data Lake

Similaire à Data Lake (20)

Plus de Soft Computing

Plus de Soft Computing (19)

Data Lake