SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
LIVRE BLANC
Comprendre les data-lakes
Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven
Janvier 2018
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake en quelques mots c’est :
2
Espace de stockage
de données
Avec des capacités de
traitement
Virtuellement sans limite en s’appuyant sur une infrastructure big data
(approche distribuée potentiellement dans le cloud)
Permettant de stocker tout
type de données à moindre
coût
Une opportunité technologique à mettre au service du business
Et de les retraiter en un temps
record au moment de leur
exploitation
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Sommaire
3
1. Révéler le potentiel business de votre data grâce aux data-lakes 4
2. Intégrer le data-lake dans votre écosystème data 7
3. Mener un projet data-lake 13
Révéler le potentiel business de votre data
grâce aux data-lakes
1.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake est le socle technique d’une démarche data-driven
5
• Alimenter des campagnes marketing data-driven
• Retargeter ses prospects chauds
• Choisir le lieu d’implantation d’un nouveau magasin
• Mesurer la performance de ses campagnes marketing
Marketing Business Intelligence
• Créer une vision 360° de ses clients
• Cruncher la donnée et l’analyser rapidement
• Piloter la pression publicitaire
Performance opérationnelle
• Réduire ses coûts informatiques
• Adapter le staffing en fonction de l’activité
• Bénéficier d’une infrastructure à l’architecture scalable,
évolutive, résiliente et pérenne
• Désiloter la donnée au sein de l’organisation
• Stocker d’importants volumes de données de toute nature
Expérience utilisateur
• Améliorer l’expérience client
• Personnaliser son offre
• Recommander ses produits en fonction de chaque profil
client
Use cases
data-lakes
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le data-lake est un espace de stockage doté de capacités de traitement de données
permettant un large champ d’analyse
6
Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non
structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage.
Espace de stockage (système de fichiers distribués)
Data Streaming
Calcul Big Data,
No SQL
Machine LearningDatawarehouse
Business
Intelligence
Préparation de
données semi ou
non structurées
Prédiction,
recommandations
Ingestion et
traitement de
données en temps
réel
Data-lake
2.
Intégrer le data-lake
dans votre écosystème data
Focus sur une vision marketing digital
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et
les briques d’activation
8
Données
comportementales
(Web analytics, média,
DMP)
Cross-canal offline
(magasin, service client)
Données exogènes
(2nd, 3rd party)
Personnalisation on-
site
(web, mobiles ,tablettes)
Ingérer toutes les données
pour les désiloter
Raffiner la donnée, lui
donner de l’intelligence
Rendre la donnée
accessible pour
l’exploiter
Data-lake
*Liste des sources non exhaustive
Pilotage (Outil BI /
Datavisualisation)
Marketing direct
(emailing, médias
digitaux, SMS)
Cross-canal offline
(magasin, service client)
Données clients
(CRM, référentiel
personnes, commandes)
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ?
9
Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la
première brique à activer dans une infrastructure data.
Datawarehouse
Nature
des
données
Modèle
de
données
Finalités
Ingestion rapide de nouvelles données de tous types
(structurée, semi-structurée, non structurée)
Stocke la donnée brute et le résultat des différentes
étapes de retraitements. Il permet d’historiser
l’information au niveau de granularité le plus faible
Stocke uniquement les données déjà
structurées et considérées comme « utiles » à
l’entreprise
Structure peu responsive : nécessite un travail de
structuration de la donnée avant de l’ingérer
Stocke des données déjà raffinées : des métriques
et événements découlant des référentiels de
l’entreprise
Business Intelligence : data management, reporting,
analyse exploratoire
La donnée est accessible aux analystes via du SQL
car elle est structurée en amont
Stocke toutes les données, celles utiles
aujourd’hui ou potentiellement dans le futur
Big data, data science, temps réels
On structure la donnée de manière agile en fonction
des cas d’usage
Data-lake
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse
10
La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux
manières :
1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes
sont connectés et échangent leurs données
2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des
technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée
Apports du data-lake
• Analyses plus avancées (plus grande
puissance de calcul)
• Meilleure contextualisation de la
communication client (ajout de données
comportementales)
• Optimisation des budgets médias
(temps réel)
Outil BI /
Datavisualisation
Données Web
Données clients
et commandes
Données
exogènes
(2nd, 3rd party)
Architecture décisionnelle
Datawarehouse
(legacy)
Médias
Marketing
relationnel
Data-lake
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de
risque initiale vis-à-vis de ces projets
11
Localisation des
données et rôles
« On Premise »
Data – center privé
Cloud Services
« serverless »
Facilité de déploiement
Ressources nécessaires
au fonctionnement de la
plateforme
Vous devez dimensionner votre
infrastructure : provisionnement de
ressources machines en fonction de vos
besoins
Vous installez les distributions logiciels big
data (gestion des configurations et mise à
jour)
Approche Software as a Service
(Saas)
Le prestataire héberge et administre
techniquement la plateforme
Vous gérez l’hébergement des données sur
vos propres serveurs
Vous administrez l’infrastructure (configuration
des logiciels, dimensionnement)
« On Premise »
Cloud computing
Approche Infrastructure as a Service (IaaS)
Le prestataire héberge vos données
Vous administrez l’infrastructure
(configuration des logiciels,
dimensionnement des serveurs)
Vous gérez l’achat et l’installation des serveurs
Vous devez dimensionner votre infrastructure :
provisionnement de ressources machines en
fonction de vos besoins
Vous installez les distributions logiciels big data
(gestion des configurations et mise à jour)
Le prestataire gère la configuration et
le dimensionnement de l’infrastructure
automatiquement en fonction de votre
usage de ses services
Investissement dans un data-center
Compétences en gestion, en hébergement,
en dev-ops (administration de la plateforme)
Distribution payante d’un framework big data
Facturation en fonction de la location des
ressources machines
Des compétences dev-ops pour administrer
l’infrastructure
Distribution payante d’un framework big data
Facturation à l’usage du service (stockage
et volume de données requêtées). Cela
couvre la consommation des ressources
machines et le coût du logiciel
Exemples de technologies
(non exhaustif)
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ?
12
S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage
Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données
entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des
serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait
automatiquement au fur et à mesure de votre consommation.
La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez
immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du
Cloud proposent des solutions qui sont RGPD compliant.
Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous
consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la
valeur des premiers cas d’usage.
Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les
complexités propres à votre métier et à vos données
Mener un projet data-lake
3.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le déploiement d’un data-lake se fait progressivement avec des cas d’usage
14
• Business Intelligence
• Vision Client 360
• Market Automation
• Analytics avancées
• Segmentation
• Scoring
• Temps réel
• Analyse d’images
Data warehouse
Data visualisation
Machine Learning
ETL Big Data
Data Streaming
Deep learning
BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub
La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage.
Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque
montée en complexité.
Complexité croissante
Exemples d’outils
du stack Google
Cloud Platform
1 à 2 mois 2 à 4 mois2 à 3 mois
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les cas d’usage se déploient rapidement via une méthodologie agile
15
Critères de sélection et d’évaluation :
Identification de l’impact business
Identification de la complexité technique :
disponibilité et qualité de la donnée, complexité
des traitements et modélisation à appliquer
Sélection du cas d’usage
Déploiement
Collecte des données
Évaluation du projet
Industrialisation :
Les projets peuvent commencer petit, voire
même par un mode POC dégradé
L’industrialisation se pense dès le début et reste
en fil rouge tout au long des projets
Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage,
facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage
suivants
Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage
Durée d’une itération : 1 à 3 mois
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring
16
Direction Générale
Direction Marketing
Direction Financière
Direction du Service Client
Direction Commerciale
Sponsoring
Equipe data-lake
Principaux
Contributeurs
Clients Internes
Systèmes d’Information Chef de projet
Data engineer
Data analyst
Data scientist
Administrateur système
L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation
ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction
en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires
17
Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data
Chef de projet
Identifie et spécifie les uses-cases avec les clients
internes et gère leur cadencement
Data Engineer
Connecte le data-lake à toutes les
sources de données, s’assure de la
qualité de la donnée et lie la plateforme
aux applications externes
Data Analyst
Définit les KPIs et les métriques à des
fins de reporting / dashboarding pour
comprendre les processus métiers
Data Scientist
Exploite en profondeur l’ensemble des
données à des fins de prospection, pour
déterminer les grandes tendances
business et les opportunités que
l’organisation devra saisir
Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées :
statistiques, data-visualisation, compréhension du métier, préparation de données, software
engineering et gestion de projet.
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation
d’un data-lake
18
 Le traitement doit être licite et légitime
 Les données doivent être pertinentes pour le traitement
 Il doit y avoir proportionnalité entre les données traitées
et la finalité de traitement
Finalité
 Les personnes doivent bénéficier d’une information
préalable au traitement
 Les personnes doivent bénéficier d’un droit d’accès, de
rectification et d’opposition
Transparence
 Les données doivent être protégées et la
confidentialité assuréeSécurité
 Les données doivent être conservées pour une durée
adéquateConservation
 On identifie lors du déploiement des uses-case les données
pertinentes à traiter et on applique les traitements
nécessaires pour anonymiser les données
 Cette démarche est favorisée par une méthodologie agile
 Un mapping des données, des dictionnaires de données et
un modèle d’identifiant client unique doivent être tenus à
jour pour garantir un droit à l’accès et à la modification
 Le data-lake permet la mise en place de processus de
suppression automatique de données
 Le critère de la sécurité doit être pris en compte lors du
choix d’une technologie de data-lake
 Une bonne gouvernance des données doit permettre de
contrôler l’accès à la donnée au sein de l’entreprise et des
partenaires extérieurs
Les principes de base de la protection des données personnelles Des process à appliquer
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Lancer un projet data-lake dans une organisation
19
Pour lancer un projet data-lake, il vous faut :
• Un ou plusieurs cas d’usage
• De la data de qualité et une connaissance des systèmes sources
• Un Data Scientist / Data Engineer / Data analyst
La complexité technologique de ces projets a été grandement réduite par les progrès des
technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et
souvent très utile
Commencer par un Proof Of Concept :
• Connaissance Client : étude de parcours Cross –
Canal
• Tester des scénarios d’activation avec des scénarios
DMP – Like
S’attaquer à un sujet data structurant :
• Architecture Décisionnelle à destination d’un projet
Business Intelligence
• Référentiel Client/Prospect Unique
Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Refonte de l’infrastructure data
20
Objectifs du projet
Démarche
 Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants :
• Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients
• Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming
Machine Learning
L’entraînement du modèle et la
demande de prédictions se fait en
sollicitant une VM Compute
Engine
Visualisation
Les résultats sont accessibles aux
équipes métier via un outil de
Data Visualisation
Source de données
Données produits
Données CRM
Données digitales (web)
Données Magasins
Données comptables
Données exogènes
Google Cloud Platform
Stockage en ligne
Machines virtuelles scalables
Requêtage et traitement de la
donnée
*Phénomène de Research Online Purchase Offline
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés
21
Objectifs du projet
Démarche
 Mettre en place un modèle pour optimiser les budgets média de Club Med
Résultats
 Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords
A/B testing des campagnes
A/B/C test sur Adwords de 3 stratégies de remarketing
faisant varier les enchères sur ces visiteurs scorés:
+40% / -40% / Témoin
Modélisation / Détection d’appétence
Attribution à tous les visiteurs du site d’une probabilité de
conversion post-première visite via un algorithme auto-
apprenant
Gradient Boosting Random Forest
Industrialisation
Automatisation d’une stratégie d’achat en temps réel
Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES
Thomas FAIVRE-DUBOZ
Directeur Associé et Fondateur
@ tfd@converteo.com
LES AUTEURS :
Arthur FULCONIS
Consultant Senior
@ af@converteo.com
Julien RIBOURT
Senior Manager
@ jr@converteo.com
Emeric TROSSAT
Consultant Senior
@ et@converteo.com
Adrien BOUHOT
Consultant Senior
@ abo@converteo.com
Najlaa BOUALI
Consultante
@ nb@converteo.com
Vincent COSTANZA
Consultant Senior
@ vco@converteo.com

Contenu connexe

Tendances

Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerceCOMPETITIC
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème françaisMatthias Fille
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data ScienceSoft Computing
 
Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Silicon Salad
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurJean-Michel Franco
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiereSabrine MASTOURA
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEGroupe IDAIA
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Romain Fonnier
 

Tendances (20)

Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème français
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ?
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeur
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiere
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
 

Similaire à Livre blanc data-lakes converteo 2018

SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData, Inc.
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesDenodo
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Yassine, LASRI
 
Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Vincent Misson
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
Présentation evénement AWS - 13 oct 2015
Présentation evénement AWS  - 13 oct 2015 Présentation evénement AWS  - 13 oct 2015
Présentation evénement AWS - 13 oct 2015 ABC Systemes
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Simplifier la mise en place d'une stratégie Data Mesh avec Denodo
Simplifier la mise en place d'une stratégie Data Mesh avec DenodoSimplifier la mise en place d'une stratégie Data Mesh avec Denodo
Simplifier la mise en place d'une stratégie Data Mesh avec DenodoDenodo
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM France Lab
 
Cloud computing cours in power point chap
Cloud computing cours in power point chapCloud computing cours in power point chap
Cloud computing cours in power point chapaichafarahsouelmi
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybridesAWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybridesAmazon Web Services
 
La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”Denodo
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 

Similaire à Livre blanc data-lakes converteo 2018 (20)

SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
 
Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Présentation evénement AWS - 13 oct 2015
Présentation evénement AWS  - 13 oct 2015 Présentation evénement AWS  - 13 oct 2015
Présentation evénement AWS - 13 oct 2015
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Simplifier la mise en place d'une stratégie Data Mesh avec Denodo
Simplifier la mise en place d'une stratégie Data Mesh avec DenodoSimplifier la mise en place d'une stratégie Data Mesh avec Denodo
Simplifier la mise en place d'une stratégie Data Mesh avec Denodo
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
 
Cloud computing cours in power point chap
Cloud computing cours in power point chapCloud computing cours in power point chap
Cloud computing cours in power point chap
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybridesAWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
 
La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 

Plus de Converteo

Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
Barometre 2017  Webanalyse, Tag Management et Customer Experience ManagementBarometre 2017  Webanalyse, Tag Management et Customer Experience Management
Barometre 2017 Webanalyse, Tag Management et Customer Experience ManagementConverteo
 
Baromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséBaromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséConverteo
 
BAROMÈTRE RGPD
BAROMÈTRE RGPDBAROMÈTRE RGPD
BAROMÈTRE RGPDConverteo
 
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceBaromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceConverteo
 
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Converteo
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Converteo
 
Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Converteo
 
Data Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataData Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataConverteo
 
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Converteo
 
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsBaromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsConverteo
 
10 minutes : Tableaux de bord
10 minutes : Tableaux de bord10 minutes : Tableaux de bord
10 minutes : Tableaux de bordConverteo
 
Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Converteo
 
Baromètre de la livraison 2015
Baromètre de la livraison 2015 Baromètre de la livraison 2015
Baromètre de la livraison 2015 Converteo
 
2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation webConverteo
 
Baromètre presse & digital
Baromètre presse & digitalBaromètre presse & digital
Baromètre presse & digitalConverteo
 
Baromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementBaromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementConverteo
 
Livre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueLivre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueConverteo
 
E- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséE- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséConverteo
 
Livre blanc RTB Converteo
Livre blanc RTB ConverteoLivre blanc RTB Converteo
Livre blanc RTB ConverteoConverteo
 

Plus de Converteo (19)

Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
Barometre 2017  Webanalyse, Tag Management et Customer Experience ManagementBarometre 2017  Webanalyse, Tag Management et Customer Experience Management
Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
 
Baromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséBaromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnalisé
 
BAROMÈTRE RGPD
BAROMÈTRE RGPDBAROMÈTRE RGPD
BAROMÈTRE RGPD
 
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceBaromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
 
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
 
Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016
 
Data Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataData Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la data
 
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
 
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsBaromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
 
10 minutes : Tableaux de bord
10 minutes : Tableaux de bord10 minutes : Tableaux de bord
10 minutes : Tableaux de bord
 
Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015
 
Baromètre de la livraison 2015
Baromètre de la livraison 2015 Baromètre de la livraison 2015
Baromètre de la livraison 2015
 
2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web
 
Baromètre presse & digital
Baromètre presse & digitalBaromètre presse & digital
Baromètre presse & digital
 
Baromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementBaromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag management
 
Livre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueLivre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistique
 
E- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséE- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatisé
 
Livre blanc RTB Converteo
Livre blanc RTB ConverteoLivre blanc RTB Converteo
Livre blanc RTB Converteo
 

Livre blanc data-lakes converteo 2018

  • 1. LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven Janvier 2018
  • 2. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake en quelques mots c’est : 2 Espace de stockage de données Avec des capacités de traitement Virtuellement sans limite en s’appuyant sur une infrastructure big data (approche distribuée potentiellement dans le cloud) Permettant de stocker tout type de données à moindre coût Une opportunité technologique à mettre au service du business Et de les retraiter en un temps record au moment de leur exploitation
  • 3. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Sommaire 3 1. Révéler le potentiel business de votre data grâce aux data-lakes 4 2. Intégrer le data-lake dans votre écosystème data 7 3. Mener un projet data-lake 13
  • 4. Révéler le potentiel business de votre data grâce aux data-lakes 1.
  • 5. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake est le socle technique d’une démarche data-driven 5 • Alimenter des campagnes marketing data-driven • Retargeter ses prospects chauds • Choisir le lieu d’implantation d’un nouveau magasin • Mesurer la performance de ses campagnes marketing Marketing Business Intelligence • Créer une vision 360° de ses clients • Cruncher la donnée et l’analyser rapidement • Piloter la pression publicitaire Performance opérationnelle • Réduire ses coûts informatiques • Adapter le staffing en fonction de l’activité • Bénéficier d’une infrastructure à l’architecture scalable, évolutive, résiliente et pérenne • Désiloter la donnée au sein de l’organisation • Stocker d’importants volumes de données de toute nature Expérience utilisateur • Améliorer l’expérience client • Personnaliser son offre • Recommander ses produits en fonction de chaque profil client Use cases data-lakes
  • 6. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le data-lake est un espace de stockage doté de capacités de traitement de données permettant un large champ d’analyse 6 Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage. Espace de stockage (système de fichiers distribués) Data Streaming Calcul Big Data, No SQL Machine LearningDatawarehouse Business Intelligence Préparation de données semi ou non structurées Prédiction, recommandations Ingestion et traitement de données en temps réel Data-lake
  • 7. 2. Intégrer le data-lake dans votre écosystème data Focus sur une vision marketing digital
  • 8. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et les briques d’activation 8 Données comportementales (Web analytics, média, DMP) Cross-canal offline (magasin, service client) Données exogènes (2nd, 3rd party) Personnalisation on- site (web, mobiles ,tablettes) Ingérer toutes les données pour les désiloter Raffiner la donnée, lui donner de l’intelligence Rendre la donnée accessible pour l’exploiter Data-lake *Liste des sources non exhaustive Pilotage (Outil BI / Datavisualisation) Marketing direct (emailing, médias digitaux, SMS) Cross-canal offline (magasin, service client) Données clients (CRM, référentiel personnes, commandes)
  • 9. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ? 9 Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la première brique à activer dans une infrastructure data. Datawarehouse Nature des données Modèle de données Finalités Ingestion rapide de nouvelles données de tous types (structurée, semi-structurée, non structurée) Stocke la donnée brute et le résultat des différentes étapes de retraitements. Il permet d’historiser l’information au niveau de granularité le plus faible Stocke uniquement les données déjà structurées et considérées comme « utiles » à l’entreprise Structure peu responsive : nécessite un travail de structuration de la donnée avant de l’ingérer Stocke des données déjà raffinées : des métriques et événements découlant des référentiels de l’entreprise Business Intelligence : data management, reporting, analyse exploratoire La donnée est accessible aux analystes via du SQL car elle est structurée en amont Stocke toutes les données, celles utiles aujourd’hui ou potentiellement dans le futur Big data, data science, temps réels On structure la donnée de manière agile en fonction des cas d’usage Data-lake
  • 10. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse 10 La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux manières : 1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes sont connectés et échangent leurs données 2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée Apports du data-lake • Analyses plus avancées (plus grande puissance de calcul) • Meilleure contextualisation de la communication client (ajout de données comportementales) • Optimisation des budgets médias (temps réel) Outil BI / Datavisualisation Données Web Données clients et commandes Données exogènes (2nd, 3rd party) Architecture décisionnelle Datawarehouse (legacy) Médias Marketing relationnel Data-lake
  • 11. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de risque initiale vis-à-vis de ces projets 11 Localisation des données et rôles « On Premise » Data – center privé Cloud Services « serverless » Facilité de déploiement Ressources nécessaires au fonctionnement de la plateforme Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Approche Software as a Service (Saas) Le prestataire héberge et administre techniquement la plateforme Vous gérez l’hébergement des données sur vos propres serveurs Vous administrez l’infrastructure (configuration des logiciels, dimensionnement) « On Premise » Cloud computing Approche Infrastructure as a Service (IaaS) Le prestataire héberge vos données Vous administrez l’infrastructure (configuration des logiciels, dimensionnement des serveurs) Vous gérez l’achat et l’installation des serveurs Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Le prestataire gère la configuration et le dimensionnement de l’infrastructure automatiquement en fonction de votre usage de ses services Investissement dans un data-center Compétences en gestion, en hébergement, en dev-ops (administration de la plateforme) Distribution payante d’un framework big data Facturation en fonction de la location des ressources machines Des compétences dev-ops pour administrer l’infrastructure Distribution payante d’un framework big data Facturation à l’usage du service (stockage et volume de données requêtées). Cela couvre la consommation des ressources machines et le coût du logiciel Exemples de technologies (non exhaustif)
  • 12. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ? 12 S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait automatiquement au fur et à mesure de votre consommation. La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du Cloud proposent des solutions qui sont RGPD compliant. Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la valeur des premiers cas d’usage. Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les complexités propres à votre métier et à vos données
  • 13. Mener un projet data-lake 3.
  • 14. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le déploiement d’un data-lake se fait progressivement avec des cas d’usage 14 • Business Intelligence • Vision Client 360 • Market Automation • Analytics avancées • Segmentation • Scoring • Temps réel • Analyse d’images Data warehouse Data visualisation Machine Learning ETL Big Data Data Streaming Deep learning BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage. Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque montée en complexité. Complexité croissante Exemples d’outils du stack Google Cloud Platform 1 à 2 mois 2 à 4 mois2 à 3 mois
  • 15. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les cas d’usage se déploient rapidement via une méthodologie agile 15 Critères de sélection et d’évaluation : Identification de l’impact business Identification de la complexité technique : disponibilité et qualité de la donnée, complexité des traitements et modélisation à appliquer Sélection du cas d’usage Déploiement Collecte des données Évaluation du projet Industrialisation : Les projets peuvent commencer petit, voire même par un mode POC dégradé L’industrialisation se pense dès le début et reste en fil rouge tout au long des projets Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage, facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage suivants Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage Durée d’une itération : 1 à 3 mois
  • 16. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring 16 Direction Générale Direction Marketing Direction Financière Direction du Service Client Direction Commerciale Sponsoring Equipe data-lake Principaux Contributeurs Clients Internes Systèmes d’Information Chef de projet Data engineer Data analyst Data scientist Administrateur système L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
  • 17. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires 17 Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data Chef de projet Identifie et spécifie les uses-cases avec les clients internes et gère leur cadencement Data Engineer Connecte le data-lake à toutes les sources de données, s’assure de la qualité de la donnée et lie la plateforme aux applications externes Data Analyst Définit les KPIs et les métriques à des fins de reporting / dashboarding pour comprendre les processus métiers Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées : statistiques, data-visualisation, compréhension du métier, préparation de données, software engineering et gestion de projet.
  • 18. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation d’un data-lake 18  Le traitement doit être licite et légitime  Les données doivent être pertinentes pour le traitement  Il doit y avoir proportionnalité entre les données traitées et la finalité de traitement Finalité  Les personnes doivent bénéficier d’une information préalable au traitement  Les personnes doivent bénéficier d’un droit d’accès, de rectification et d’opposition Transparence  Les données doivent être protégées et la confidentialité assuréeSécurité  Les données doivent être conservées pour une durée adéquateConservation  On identifie lors du déploiement des uses-case les données pertinentes à traiter et on applique les traitements nécessaires pour anonymiser les données  Cette démarche est favorisée par une méthodologie agile  Un mapping des données, des dictionnaires de données et un modèle d’identifiant client unique doivent être tenus à jour pour garantir un droit à l’accès et à la modification  Le data-lake permet la mise en place de processus de suppression automatique de données  Le critère de la sécurité doit être pris en compte lors du choix d’une technologie de data-lake  Une bonne gouvernance des données doit permettre de contrôler l’accès à la donnée au sein de l’entreprise et des partenaires extérieurs Les principes de base de la protection des données personnelles Des process à appliquer
  • 19. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Lancer un projet data-lake dans une organisation 19 Pour lancer un projet data-lake, il vous faut : • Un ou plusieurs cas d’usage • De la data de qualité et une connaissance des systèmes sources • Un Data Scientist / Data Engineer / Data analyst La complexité technologique de ces projets a été grandement réduite par les progrès des technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et souvent très utile Commencer par un Proof Of Concept : • Connaissance Client : étude de parcours Cross – Canal • Tester des scénarios d’activation avec des scénarios DMP – Like S’attaquer à un sujet data structurant : • Architecture Décisionnelle à destination d’un projet Business Intelligence • Référentiel Client/Prospect Unique Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
  • 20. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Refonte de l’infrastructure data 20 Objectifs du projet Démarche  Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants : • Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients • Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming Machine Learning L’entraînement du modèle et la demande de prédictions se fait en sollicitant une VM Compute Engine Visualisation Les résultats sont accessibles aux équipes métier via un outil de Data Visualisation Source de données Données produits Données CRM Données digitales (web) Données Magasins Données comptables Données exogènes Google Cloud Platform Stockage en ligne Machines virtuelles scalables Requêtage et traitement de la donnée *Phénomène de Research Online Purchase Offline
  • 21. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés 21 Objectifs du projet Démarche  Mettre en place un modèle pour optimiser les budgets média de Club Med Résultats  Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords A/B testing des campagnes A/B/C test sur Adwords de 3 stratégies de remarketing faisant varier les enchères sur ces visiteurs scorés: +40% / -40% / Témoin Modélisation / Détection d’appétence Attribution à tous les visiteurs du site d’une probabilité de conversion post-première visite via un algorithme auto- apprenant Gradient Boosting Random Forest Industrialisation Automatisation d’une stratégie d’achat en temps réel
  • 22. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES Thomas FAIVRE-DUBOZ Directeur Associé et Fondateur @ tfd@converteo.com LES AUTEURS : Arthur FULCONIS Consultant Senior @ af@converteo.com Julien RIBOURT Senior Manager @ jr@converteo.com Emeric TROSSAT Consultant Senior @ et@converteo.com Adrien BOUHOT Consultant Senior @ abo@converteo.com Najlaa BOUALI Consultante @ nb@converteo.com Vincent COSTANZA Consultant Senior @ vco@converteo.com