Successfully reported this slideshow.
© Soft Computing – www.softcomputing.com
Le Data Lake : révolution de la data science, complément au
Data Warehouse ou sim...
© 2
Vos interlocuteurs
Frédéric PERONNE
Directeur Associé
Sylvain BELLIER
Directeur Marketing Services
© 3
Le Data Lake : révolution de la data science, complément au
Data Warehouse ou simple buzz marketing ?
Séminaire le 19 ...
© 4
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les ri...
© 5
Carte d’identité
© 6
Compétences : un mix unique de compétences pointues
Digital
Marketing
Data
Science
Project
Management
Information
Tech...
© 7
Mission : transformer la data en performance
Business
IT
Imaginer, bâtir et opérer
des programmes de conquête et de fi...
© 8
Delivery : continuum de services et souplesse
Think Build Run
Délégation
d’expertise
Mode
Projet
Centre de
services
© 9
Programme relationnel
multi-devices et
remarketing.
Ecoute et analyse des
sentiments des clients
sur les réseaux socia...
© 10
Experts reconnus
blog.softcomputing.com/
fr.slideshare.net/softcomputing
twitter.com/#!/SoftComputing
linkedin.com/co...
© 11
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les r...
© 12
Défi technique #1 : se préparer à gérer des volumes inimaginables
2005 2015
© 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont
toujours accessibl...
© 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Deman...
© 15
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open SourceDistributions
Données AnalyseVisualisation Application
EMR
...
© 16
On aborde la vallée des désillusions
Big Data
© 17
Encore un concept ?
© 18
Data lake : c’est quoi encore
cette nouvelle invention ?
© 19
Data Lake : c’est quoi ?
Transactionnel
Data Warehouse
Data lake
Pas de structure pré-déterminée
Pas de préjugés sur ...
© 20
Mais pourquoi tout stocker sans savoir pourquoi ?
« Since the inception
of ebay, not a single
data was deleted ! »
#1...
© 21
Une finalité et la réalité business quand même
Améliorer la performance
de détection / de prévision
avec des données ...
© 22
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les r...
© 23
Quelle promesse ?
Si la puissance de traitement est
illimitée …
… alors, il est possible de créer les
relations à la ...
© 24
On y met quoi dans un data lake ?
Données des
SI
Données du Data
Warehouse
Tweets
Assets
digitaux
Logs webs
Open Data...
© 25
Démocratisation : de plus en plus de données en libre service
© 26
Démocratisation : de plus en plus de données à coût modique
© 27
Et on s’y retrouve comment dans toutes ces données ?
© 28
Et si on ne sait pas programmer ?
Self Service BI :
Découverte de relations
Langage naturel
© 29
Et si on ne sait pas programmer ?
Datavisualisation :
Ergonomie utilisateur
Génération des requêtes Big Data
© 30
Et si on ne sait pas programmer ? : analytique ML en cloud
© 31
Et si on ne sait pas programmer ? : ML « as a service »
© 32
Comment est assurée la qualité des données dans un data lake ?
© 33
Finalement, on fait quoi d’un data lake ?
MarketingDatascience Programmation
Stocker
Explorer
Transformer
Modéliser
A...
© 34
Et il faut quoi pour travailler sur un data lake ?
Query BI Dataviz Statistique Machine
learning
Script Langage Envir...
© 35
Connecteurs
Loader
Couche d’accès
Query
StockerExplorerTransformerModéliserAppliquer
BI Dataviz Statistique Machine
l...
© 36
Comment mon datalake s’intègre dans mon architecture applicative ?
DWH
RCU
Data lake /
Exploratoire
Bacs à sable /
An...
© 37
Synthèse des points clés du Datalake
+
Données
Détail
Temps réel
Prédictif
Non-
structuré
Ouvert sur
l’extérieur
Auto...
© 38
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les r...
© 39
Architecture globale
Lab data Large Data Fast Data
Prototyper l’algorithme
Produire les résultats
Suivre et optimiser...
© 40
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les r...
© 41
Données :
DigitalesCRM
Penser applications opérationnelles et débuter simple
R.O.I.
Connaissance
Productivité opérati...
© 42
Aligner les compétences
MarketingDatascience Data manager
© 43
Pour faire quoi ?
MarketingDatascience Data manager
Stocker
Explorer
Transformer
Modéliser
Appliquer
© 44
Trois points de vigilances à anticiper
CNIL
SECURITE
GOUVERNANCE
© 45
Combien ça coûte ?
X * 100 K€ / an
Batch
As a service
X * 1 M€ / an
Industrialisation
Temps réel
Datawahouse+big data
© 46
Reconsidérer chaque
année les ROI : les
barrières à l’entrée
baissent toujours plus
© 47
SOMMAIRESommaire
1. Introduction
2. Data lake: le décor et de quoi parle-t-on ?
3. Data lake : les promesses et les r...
© 48
Comment débuter, avec tous ces nouveaux enjeux opérationnels,
Et malgré tous les freins ?
 Captation de la donnée su...
© 49
Pour créer les conditions de l’appropriation : Testez, Utilisez, Vérifiez…
Avec l’offre « Soft Computing DataLakeRead...
© 50
Libérer les opportunités: log, stream, transaction
Streams sociaux Weblogs Capteurs E-mails
Transactions Pages web Do...
© 51
Soft computing : un continuum de services complets
Valorisation
des
données
Fondations
Roadmap
Architecture
Conver...
© 52
Prochain SlideShare
Chargement dans…5
×

Data Lake

6 327 vues

Publié le

La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies Big Data pour stocker en vrac, c’est-à-dire avec très peu de transformation, de gouvernance ou de sémantique, toutes les données structurées ou non sans préjuger des traitements qui leur seront appliqués, afin de les exposer à des outils de visualisation et d’analyse pour démultiplier l’autonomie et l’agilité des data scientists.
Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data warehouse, complémentarité, redondance ou compétition ? Comment palier au manque de méta-données et à la faible qualité des données ? Jusqu’à quel point le data lake d’entreprise est-il gérable, quand doit-on basculer sur un niveau départemental ? Quelles fonctions supportent le data lake, avec quel outillage technique, avec quelles compétences ? Quelle organisation mettre en place autour d’un data lake ? Quelle gouvernance des données sur un data lake ? Le data lake est-il compatible avec des exigences de sécurité, de pseudonymisation et de respect de la vie privée ?

Le séminaire conclura sur un cas pratique de mise en place d’un data lake d’une dizaine de téra-octets avec des outils de visualisation et d’analyse opérationnel en moins d’un mois. Ce cas permettra de mieux appréhender les enjeux de coûts, de planning, de choix techniques, d’organisation et de modélisation du retour sur investissement.

Publié dans : Technologie
  • Soyez le premier à commenter

Data Lake

  1. 1. © Soft Computing – www.softcomputing.com Le Data Lake : révolution de la data science, complément au Data Warehouse ou simple buzz marketing ? Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien : concepts, outils, organisation, retours d’expérience. 19/11/2015
  2. 2. © 2 Vos interlocuteurs Frédéric PERONNE Directeur Associé Sylvain BELLIER Directeur Marketing Services
  3. 3. © 3 Le Data Lake : révolution de la data science, complément au Data Warehouse ou simple buzz marketing ? Séminaire le 19 novembre 2015 Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien : concepts, outils, organisation, retours d’expérience. La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies Big Data pour stocker en vrac. Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data warehouse, complémentarité, redondance ou compétition ? Soft Computing vous invite à un séminaire gratuit afin de partager notre vision et nos expériences clients autour de ces sujets. Agenda : 08h45 – 11h00  Data lake : de quoi parle-t-on ?  Data lake : les promesses et les risques.  Déployer un data lake en un mois, cas pratique.  Démarche, pièges à éviter, retours d’expérience.  Conclusion A propos Soft Computing est une entreprise de Services du Numérique spécialiste en Digital, Big Data, et CRM, réunissant près de 400 consultants, délivrant des prestations de Conseil, de Technologie et de Marketing Services. Soft Computing est coté sur NYSE Euronext Paris - Code ISIN : FR0000075517 - Symbole : SFT. Cet événement est réservé aux clients et prospects Soft Computing. Pour tout autre profil, l'inscription sera soumise à validation. Soft Computing |55 quai de Grenelle|75015 Paris|01 73 00 55 00 | www.softcomputing.com Modalités : Ce séminaire aura lieu dans les locaux de Soft Computing. Ou via notre site: www.softcomputing.com
  4. 4. © 4 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  5. 5. © 5 Carte d’identité
  6. 6. © 6 Compétences : un mix unique de compétences pointues Digital Marketing Data Science Project Management Information Technologies Digital - Big Data - CRM
  7. 7. © 7 Mission : transformer la data en performance Business IT Imaginer, bâtir et opérer des programmes de conquête et de fidélisation cross-canaux, rentables et innovants Concevoir, développer et déployer des solutions Digitales, Big Data et CRM performantes, pragmatiques et adaptées AMOA
  8. 8. © 8 Delivery : continuum de services et souplesse Think Build Run Délégation d’expertise Mode Projet Centre de services
  9. 9. © 9 Programme relationnel multi-devices et remarketing. Ecoute et analyse des sentiments des clients sur les réseaux sociaux. Centre de services de gestion des campagnes marketing multicanal. Data Management Platform et marketing multicanal temps réel. Centre de services datamining, campagnes ciblées et reportings. Gestion des opérations marketing ciblées. Data Management Platform, CRM et web analytics. Conception de l’architecture décisionnelle hybride big data – datawarehouse. Centre de services gestion de campagnes marketing et connaissance clients. Convergence des pratiques et des outils marketing on et offline. Mise en place d’une Data Management Platform (DMP) et de use cases marketing. Déploiement d’une plate-forme CRM multi- marques multi-pays. Personnalisation temps réel des contenus et valorisation d’audience. Définition d’une stratégie de Business Intelligence. Pilotage de la qualité de l’expérience client. Extraits de références 2014-2015
  10. 10. © 10 Experts reconnus blog.softcomputing.com/ fr.slideshare.net/softcomputing twitter.com/#!/SoftComputing linkedin.com/company/soft-computing facebook.com/softcomputing softcomputing.com/fr/news/ InformerEcrire Enseigner
  11. 11. © 11 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  12. 12. © 12 Défi technique #1 : se préparer à gérer des volumes inimaginables 2005 2015
  13. 13. © 13 Défi technique #2 : sortir de la quadrature du triangle 2005 2015 Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interrompt » Cohérence « Les commits rendent l’ensemble des données cohérentes » Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interromp » Cohérence « Les commits rendent l’ensemble des données cohérentes » Commit en 2 phases
  14. 14. © 14 Défi technique #3 : exécuter tout calcul en moins de 0,14 secondes 2005 2015 Trading Desk (ATD) Editeur de site Demand Side Platform (DSP) Ad exchange (Adex) Supply Side Platform (SSP) Annonceur ou Agence média Ad Server de l’éditeur ou Ad network RTB & programmati que
  15. 15. © 15 Un segment (sur?) peuplé Xaas Hardware Projets Open SourceDistributions Données AnalyseVisualisation Application EMR Bigquery Professionnal services (tec & biz)
  16. 16. © 16 On aborde la vallée des désillusions Big Data
  17. 17. © 17 Encore un concept ?
  18. 18. © 18 Data lake : c’est quoi encore cette nouvelle invention ?
  19. 19. © 19 Data Lake : c’est quoi ? Transactionnel Data Warehouse Data lake Pas de structure pré-déterminée Pas de préjugés sur les traitements Donnée structurées ET non structurées Sources internes ET autres Stockage document (type Hadoop) Historisation Haute volumétrie Schéma en étoile Optimisé/traitements déterministe Donnée structurées Sources internes Stockage relationnel
  20. 20. © 20 Mais pourquoi tout stocker sans savoir pourquoi ? « Since the inception of ebay, not a single data was deleted ! » #1 : ça peut servir un jour. En plus, ils le font tous dans la Silicon Valley. #2 : et puis, vu ce que ça coûte maintenant, ce serait dommage de s’en priver. « le prix du stockage baisse de 40% par an, soit une division par 1000 en 15 ans »
  21. 21. © 21 Une finalité et la réalité business quand même Améliorer la performance de détection / de prévision avec des données exogènes Agilité, pertinence, auto apprentissage Personnalisation one to oneIdentifier et optimiser les parcours omnicanaux #3 : Créer de la valeur autour des données
  22. 22. © 22 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  23. 23. © 23 Quelle promesse ? Si la puissance de traitement est illimitée … … alors, il est possible de créer les relations à la volée dans les requêtes
  24. 24. © 24 On y met quoi dans un data lake ? Données des SI Données du Data Warehouse Tweets Assets digitaux Logs webs Open Data Documents Office Messagerie historisée Calculs datascientists
  25. 25. © 25 Démocratisation : de plus en plus de données en libre service
  26. 26. © 26 Démocratisation : de plus en plus de données à coût modique
  27. 27. © 27 Et on s’y retrouve comment dans toutes ces données ?
  28. 28. © 28 Et si on ne sait pas programmer ? Self Service BI : Découverte de relations Langage naturel
  29. 29. © 29 Et si on ne sait pas programmer ? Datavisualisation : Ergonomie utilisateur Génération des requêtes Big Data
  30. 30. © 30 Et si on ne sait pas programmer ? : analytique ML en cloud
  31. 31. © 31 Et si on ne sait pas programmer ? : ML « as a service »
  32. 32. © 32 Comment est assurée la qualité des données dans un data lake ?
  33. 33. © 33 Finalement, on fait quoi d’un data lake ? MarketingDatascience Programmation Stocker Explorer Transformer Modéliser Appliquer
  34. 34. © 34 Et il faut quoi pour travailler sur un data lake ? Query BI Dataviz Statistique Machine learning Script Langage Environne ment Couche d’accès
  35. 35. © 35 Connecteurs Loader Couche d’accès Query StockerExplorerTransformerModéliserAppliquer BI Dataviz Statistique Machine learning Script Langage Environne ment Fonctions * outillage
  36. 36. © 36 Comment mon datalake s’intègre dans mon architecture applicative ? DWH RCU Data lake / Exploratoire Bacs à sable / Analytique DMP (Cloud) • Collecte et réconciliation des id et évènements digitaux • Ciblage d’audience • Envoi cibles vers DSP pour display/RTB • Reporting EMA – Campagnes indus. et omnicanal • Ciblage • Paramétrage des campagnes • Push sur les canaux, test&learn • Cohérence de communication • Gestion de la pression commerciale CMS Moteur reco produit Moteur Mktg (décision tps réel message/offre/canal sur sollicitation entrante) 3d party • Enrich. profils • Extension d’audience Base étude Réservoir de données SIO SIO APIAPI APIAPI Analyse exploratoire, datavisualisation Etudes, Datamining Reporting DMT dynamique alimenté en temps réel ou asynchrone (Profils et id clients) Ventes, Màj réfs. … Webana TMS Evènements digitaux (réaction, logs) Enrich. Data CRM Réf. Digital Data collectées/réconciliées Ciblages Données de diffusion (print) Cibles identifiées vers display (adhoc) Cibles identifiées vers canaux internes (adhoc) Fiches clients Id clients et critères clés (pré-ciblage) Ciblages, retours campagnes, Repoussoirs Display/RTB DSP API DSP API CWH SMSEmail Push mobileGRC Eventprocessing
  37. 37. © 37 Synthèse des points clés du Datalake + Données Détail Temps réel Prédictif Non- structuré Ouvert sur l’extérieur Autonome Hybride
  38. 38. © 38 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  39. 39. © 39 Architecture globale Lab data Large Data Fast Data Prototyper l’algorithme Produire les résultats Suivre et optimiser la performance l’algorithme Proposer des substitutions Intégrer l’algorithme Développer l’algorithme
  40. 40. © 40 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  41. 41. © 41 Données : DigitalesCRM Penser applications opérationnelles et débuter simple R.O.I. Connaissance Productivité opérationnelle Analyses ad’hoc Vision produit Vision clients Technologies 1 2 3 4 ModélisationRéconciliation Externes
  42. 42. © 42 Aligner les compétences MarketingDatascience Data manager
  43. 43. © 43 Pour faire quoi ? MarketingDatascience Data manager Stocker Explorer Transformer Modéliser Appliquer
  44. 44. © 44 Trois points de vigilances à anticiper CNIL SECURITE GOUVERNANCE
  45. 45. © 45 Combien ça coûte ? X * 100 K€ / an Batch As a service X * 1 M€ / an Industrialisation Temps réel Datawahouse+big data
  46. 46. © 46 Reconsidérer chaque année les ROI : les barrières à l’entrée baissent toujours plus
  47. 47. © 47 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  48. 48. © 48 Comment débuter, avec tous ces nouveaux enjeux opérationnels, Et malgré tous les freins ?  Captation de la donnée sur les canaux numériques : – Stratégie de taggage – Stratégie de cookiefication – Créer un master ID marketing  Analyse : – Enrichir les modèles de connaissance clients actuels – Intégrer les opportunités offertes par les nouvelles données  Activation : – Optimiser / internaliser la gestion des achats médias – Construire un contrat relationnel avec mes clients – Garantir la cohérence de communication cross canaux  Mesure : – Quels KPI’s de performance ? – Quels modèles d’attribution ? – Quels taux de ROI ?  …
  49. 49. © 49 Pour créer les conditions de l’appropriation : Testez, Utilisez, Vérifiez… Avec l’offre « Soft Computing DataLakeReady » Découvrir les nouvelles solutions logiciels et systèmes Acquérir des compétences Identifier les enjeux technologiques Collecter de nouveaux types de données Conserver, historiser, garder à disposition, sécuriser les datas Découvrir les opportunités et gisements de valeurs Modéliser des uses case à forte valeur Tester leur mise en œuvre avec un faible TTM et des coûts réduits Déployer des pilotes opérationnels et mesurer la réalité des ROI
  50. 50. © 50 Libérer les opportunités: log, stream, transaction Streams sociaux Weblogs Capteurs E-mails Transactions Pages web Documents scannés Trace GPS Données de marché Enregistrements Video-surveillance Données d’usage
  51. 51. © 51 Soft computing : un continuum de services complets Valorisation des données Fondations Roadmap Architecture Convergence BI/Big Data Définition de solutions Mise en œuvre et intégration Analyses sémantiques, prédictives Visualisation de données Labs, Data scientists Conseil / Use case Infrastructure à la demande Mise à disposition de solutions Big Data Pocs Hadoop Cloud privé, hébergement Transformation du SI Accompa- gnement au changement
  52. 52. © 52

×