Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
1. LIVRE BLANC
Comprendre les data-lakes
Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven
Janvier 2018
2. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake en quelques mots c’est :
2
Espace de stockage
de données
Avec des capacités de
traitement
Virtuellement sans limite en s’appuyant sur une infrastructure big data
(approche distribuée potentiellement dans le cloud)
Permettant de stocker tout
type de données à moindre
coût
Une opportunité technologique à mettre au service du business
Et de les retraiter en un temps
record au moment de leur
exploitation
3. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Sommaire
3
1. Révéler le potentiel business de votre data grâce aux data-lakes 4
2. Intégrer le data-lake dans votre écosystème data 7
3. Mener un projet data-lake 13
5. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake est le socle technique d’une démarche data-driven
5
• Alimenter des campagnes marketing data-driven
• Retargeter ses prospects chauds
• Choisir le lieu d’implantation d’un nouveau magasin
• Mesurer la performance de ses campagnes marketing
Marketing Business Intelligence
• Créer une vision 360° de ses clients
• Cruncher la donnée et l’analyser rapidement
• Piloter la pression publicitaire
Performance opérationnelle
• Réduire ses coûts informatiques
• Adapter le staffing en fonction de l’activité
• Bénéficier d’une infrastructure à l’architecture scalable,
évolutive, résiliente et pérenne
• Désiloter la donnée au sein de l’organisation
• Stocker d’importants volumes de données de toute nature
Expérience utilisateur
• Améliorer l’expérience client
• Personnaliser son offre
• Recommander ses produits en fonction de chaque profil
client
Use cases
data-lakes
6. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le data-lake est un espace de stockage doté de capacités de traitement de données
permettant un large champ d’analyse
6
Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non
structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage.
Espace de stockage (système de fichiers distribués)
Data Streaming
Calcul Big Data,
No SQL
Machine LearningDatawarehouse
Business
Intelligence
Préparation de
données semi ou
non structurées
Prédiction,
recommandations
Ingestion et
traitement de
données en temps
réel
Data-lake
8. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et
les briques d’activation
8
Données
comportementales
(Web analytics, média,
DMP)
Cross-canal offline
(magasin, service client)
Données exogènes
(2nd, 3rd party)
Personnalisation on-
site
(web, mobiles ,tablettes)
Ingérer toutes les données
pour les désiloter
Raffiner la donnée, lui
donner de l’intelligence
Rendre la donnée
accessible pour
l’exploiter
Data-lake
*Liste des sources non exhaustive
Pilotage (Outil BI /
Datavisualisation)
Marketing direct
(emailing, médias
digitaux, SMS)
Cross-canal offline
(magasin, service client)
Données clients
(CRM, référentiel
personnes, commandes)
9. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ?
9
Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la
première brique à activer dans une infrastructure data.
Datawarehouse
Nature
des
données
Modèle
de
données
Finalités
Ingestion rapide de nouvelles données de tous types
(structurée, semi-structurée, non structurée)
Stocke la donnée brute et le résultat des différentes
étapes de retraitements. Il permet d’historiser
l’information au niveau de granularité le plus faible
Stocke uniquement les données déjà
structurées et considérées comme « utiles » à
l’entreprise
Structure peu responsive : nécessite un travail de
structuration de la donnée avant de l’ingérer
Stocke des données déjà raffinées : des métriques
et événements découlant des référentiels de
l’entreprise
Business Intelligence : data management, reporting,
analyse exploratoire
La donnée est accessible aux analystes via du SQL
car elle est structurée en amont
Stocke toutes les données, celles utiles
aujourd’hui ou potentiellement dans le futur
Big data, data science, temps réels
On structure la donnée de manière agile en fonction
des cas d’usage
Data-lake
10. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse
10
La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux
manières :
1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes
sont connectés et échangent leurs données
2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des
technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée
Apports du data-lake
• Analyses plus avancées (plus grande
puissance de calcul)
• Meilleure contextualisation de la
communication client (ajout de données
comportementales)
• Optimisation des budgets médias
(temps réel)
Outil BI /
Datavisualisation
Données Web
Données clients
et commandes
Données
exogènes
(2nd, 3rd party)
Architecture décisionnelle
Datawarehouse
(legacy)
Médias
Marketing
relationnel
Data-lake
11. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de
risque initiale vis-à-vis de ces projets
11
Localisation des
données et rôles
« On Premise »
Data – center privé
Cloud Services
« serverless »
Facilité de déploiement
Ressources nécessaires
au fonctionnement de la
plateforme
Vous devez dimensionner votre
infrastructure : provisionnement de
ressources machines en fonction de vos
besoins
Vous installez les distributions logiciels big
data (gestion des configurations et mise à
jour)
Approche Software as a Service
(Saas)
Le prestataire héberge et administre
techniquement la plateforme
Vous gérez l’hébergement des données sur
vos propres serveurs
Vous administrez l’infrastructure (configuration
des logiciels, dimensionnement)
« On Premise »
Cloud computing
Approche Infrastructure as a Service (IaaS)
Le prestataire héberge vos données
Vous administrez l’infrastructure
(configuration des logiciels,
dimensionnement des serveurs)
Vous gérez l’achat et l’installation des serveurs
Vous devez dimensionner votre infrastructure :
provisionnement de ressources machines en
fonction de vos besoins
Vous installez les distributions logiciels big data
(gestion des configurations et mise à jour)
Le prestataire gère la configuration et
le dimensionnement de l’infrastructure
automatiquement en fonction de votre
usage de ses services
Investissement dans un data-center
Compétences en gestion, en hébergement,
en dev-ops (administration de la plateforme)
Distribution payante d’un framework big data
Facturation en fonction de la location des
ressources machines
Des compétences dev-ops pour administrer
l’infrastructure
Distribution payante d’un framework big data
Facturation à l’usage du service (stockage
et volume de données requêtées). Cela
couvre la consommation des ressources
machines et le coût du logiciel
Exemples de technologies
(non exhaustif)
12. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ?
12
S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage
Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données
entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des
serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait
automatiquement au fur et à mesure de votre consommation.
La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez
immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du
Cloud proposent des solutions qui sont RGPD compliant.
Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous
consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la
valeur des premiers cas d’usage.
Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les
complexités propres à votre métier et à vos données
14. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Le déploiement d’un data-lake se fait progressivement avec des cas d’usage
14
• Business Intelligence
• Vision Client 360
• Market Automation
• Analytics avancées
• Segmentation
• Scoring
• Temps réel
• Analyse d’images
Data warehouse
Data visualisation
Machine Learning
ETL Big Data
Data Streaming
Deep learning
BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub
La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage.
Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque
montée en complexité.
Complexité croissante
Exemples d’outils
du stack Google
Cloud Platform
1 à 2 mois 2 à 4 mois2 à 3 mois
15. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les cas d’usage se déploient rapidement via une méthodologie agile
15
Critères de sélection et d’évaluation :
Identification de l’impact business
Identification de la complexité technique :
disponibilité et qualité de la donnée, complexité
des traitements et modélisation à appliquer
Sélection du cas d’usage
Déploiement
Collecte des données
Évaluation du projet
Industrialisation :
Les projets peuvent commencer petit, voire
même par un mode POC dégradé
L’industrialisation se pense dès le début et reste
en fil rouge tout au long des projets
Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage,
facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage
suivants
Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage
Durée d’une itération : 1 à 3 mois
16. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring
16
Direction Générale
Direction Marketing
Direction Financière
Direction du Service Client
Direction Commerciale
Sponsoring
Equipe data-lake
Principaux
Contributeurs
Clients Internes
Systèmes d’Information Chef de projet
Data engineer
Data analyst
Data scientist
Administrateur système
L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation
ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction
en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
17. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires
17
Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data
Chef de projet
Identifie et spécifie les uses-cases avec les clients
internes et gère leur cadencement
Data Engineer
Connecte le data-lake à toutes les
sources de données, s’assure de la
qualité de la donnée et lie la plateforme
aux applications externes
Data Analyst
Définit les KPIs et les métriques à des
fins de reporting / dashboarding pour
comprendre les processus métiers
Data Scientist
Exploite en profondeur l’ensemble des
données à des fins de prospection, pour
déterminer les grandes tendances
business et les opportunités que
l’organisation devra saisir
Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées :
statistiques, data-visualisation, compréhension du métier, préparation de données, software
engineering et gestion de projet.
18. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation
d’un data-lake
18
Le traitement doit être licite et légitime
Les données doivent être pertinentes pour le traitement
Il doit y avoir proportionnalité entre les données traitées
et la finalité de traitement
Finalité
Les personnes doivent bénéficier d’une information
préalable au traitement
Les personnes doivent bénéficier d’un droit d’accès, de
rectification et d’opposition
Transparence
Les données doivent être protégées et la
confidentialité assuréeSécurité
Les données doivent être conservées pour une durée
adéquateConservation
On identifie lors du déploiement des uses-case les données
pertinentes à traiter et on applique les traitements
nécessaires pour anonymiser les données
Cette démarche est favorisée par une méthodologie agile
Un mapping des données, des dictionnaires de données et
un modèle d’identifiant client unique doivent être tenus à
jour pour garantir un droit à l’accès et à la modification
Le data-lake permet la mise en place de processus de
suppression automatique de données
Le critère de la sécurité doit être pris en compte lors du
choix d’une technologie de data-lake
Une bonne gouvernance des données doit permettre de
contrôler l’accès à la donnée au sein de l’entreprise et des
partenaires extérieurs
Les principes de base de la protection des données personnelles Des process à appliquer
19. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
Lancer un projet data-lake dans une organisation
19
Pour lancer un projet data-lake, il vous faut :
• Un ou plusieurs cas d’usage
• De la data de qualité et une connaissance des systèmes sources
• Un Data Scientist / Data Engineer / Data analyst
La complexité technologique de ces projets a été grandement réduite par les progrès des
technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et
souvent très utile
Commencer par un Proof Of Concept :
• Connaissance Client : étude de parcours Cross –
Canal
• Tester des scénarios d’activation avec des scénarios
DMP – Like
S’attaquer à un sujet data structurant :
• Architecture Décisionnelle à destination d’un projet
Business Intelligence
• Référentiel Client/Prospect Unique
Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
20. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Refonte de l’infrastructure data
20
Objectifs du projet
Démarche
Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants :
• Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients
• Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming
Machine Learning
L’entraînement du modèle et la
demande de prédictions se fait en
sollicitant une VM Compute
Engine
Visualisation
Les résultats sont accessibles aux
équipes métier via un outil de
Data Visualisation
Source de données
Données produits
Données CRM
Données digitales (web)
Données Magasins
Données comptables
Données exogènes
Google Cloud Platform
Stockage en ligne
Machines virtuelles scalables
Requêtage et traitement de la
donnée
*Phénomène de Research Online Purchase Offline
21. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES –
RETOUR SUR LA MISSION
Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés
21
Objectifs du projet
Démarche
Mettre en place un modèle pour optimiser les budgets média de Club Med
Résultats
Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords
A/B testing des campagnes
A/B/C test sur Adwords de 3 stratégies de remarketing
faisant varier les enchères sur ces visiteurs scorés:
+40% / -40% / Témoin
Modélisation / Détection d’appétence
Attribution à tous les visiteurs du site d’une probabilité de
conversion post-première visite via un algorithme auto-
apprenant
Gradient Boosting Random Forest
Industrialisation
Automatisation d’une stratégie d’achat en temps réel
22. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES
Thomas FAIVRE-DUBOZ
Directeur Associé et Fondateur
@ tfd@converteo.com
LES AUTEURS :
Arthur FULCONIS
Consultant Senior
@ af@converteo.com
Julien RIBOURT
Senior Manager
@ jr@converteo.com
Emeric TROSSAT
Consultant Senior
@ et@converteo.com
Adrien BOUHOT
Consultant Senior
@ abo@converteo.com
Najlaa BOUALI
Consultante
@ nb@converteo.com
Vincent COSTANZA
Consultant Senior
@ vco@converteo.com