Data Lake

4 533 vues

Publié le

La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies Big Data pour stocker en vrac, c’est-à-dire avec très peu de transformation, de gouvernance ou de sémantique, toutes les données structurées ou non sans préjuger des traitements qui leur seront appliqués, afin de les exposer à des outils de visualisation et d’analyse pour démultiplier l’autonomie et l’agilité des data scientists.
Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data warehouse, complémentarité, redondance ou compétition ? Comment palier au manque de méta-données et à la faible qualité des données ? Jusqu’à quel point le data lake d’entreprise est-il gérable, quand doit-on basculer sur un niveau départemental ? Quelles fonctions supportent le data lake, avec quel outillage technique, avec quelles compétences ? Quelle organisation mettre en place autour d’un data lake ? Quelle gouvernance des données sur un data lake ? Le data lake est-il compatible avec des exigences de sécurité, de pseudonymisation et de respect de la vie privée ?

Le séminaire conclura sur un cas pratique de mise en place d’un data lake d’une dizaine de téra-octets avec des outils de visualisation et d’analyse opérationnel en moins d’un mois. Ce cas permettra de mieux appréhender les enjeux de coûts, de planning, de choix techniques, d’organisation et de modélisation du retour sur investissement.

Publié dans : Technologie
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
4 533
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 856
Actions
Partages
0
Téléchargements
161
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Data Lake

  1. 1. © Soft Computing – www.softcomputing.com Le Data Lake : révolution de la data science, complément au Data Warehouse ou simple buzz marketing ? Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien : concepts, outils, organisation, retours d’expérience. 19/11/2015
  2. 2. © 2 Vos interlocuteurs Frédéric PERONNE Directeur Associé Sylvain BELLIER Directeur Marketing Services
  3. 3. © 3 Le Data Lake : révolution de la data science, complément au Data Warehouse ou simple buzz marketing ? Séminaire le 19 novembre 2015 Data Lake, tout le monde en parle… Soft Computing le met en œuvre et l’utilise au quotidien : concepts, outils, organisation, retours d’expérience. La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies Big Data pour stocker en vrac. Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data warehouse, complémentarité, redondance ou compétition ? Soft Computing vous invite à un séminaire gratuit afin de partager notre vision et nos expériences clients autour de ces sujets. Agenda : 08h45 – 11h00  Data lake : de quoi parle-t-on ?  Data lake : les promesses et les risques.  Déployer un data lake en un mois, cas pratique.  Démarche, pièges à éviter, retours d’expérience.  Conclusion A propos Soft Computing est une entreprise de Services du Numérique spécialiste en Digital, Big Data, et CRM, réunissant près de 400 consultants, délivrant des prestations de Conseil, de Technologie et de Marketing Services. Soft Computing est coté sur NYSE Euronext Paris - Code ISIN : FR0000075517 - Symbole : SFT. Cet événement est réservé aux clients et prospects Soft Computing. Pour tout autre profil, l'inscription sera soumise à validation. Soft Computing |55 quai de Grenelle|75015 Paris|01 73 00 55 00 | www.softcomputing.com Modalités : Ce séminaire aura lieu dans les locaux de Soft Computing. Ou via notre site: www.softcomputing.com
  4. 4. © 4 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  5. 5. © 5 Carte d’identité
  6. 6. © 6 Compétences : un mix unique de compétences pointues Digital Marketing Data Science Project Management Information Technologies Digital - Big Data - CRM
  7. 7. © 7 Mission : transformer la data en performance Business IT Imaginer, bâtir et opérer des programmes de conquête et de fidélisation cross-canaux, rentables et innovants Concevoir, développer et déployer des solutions Digitales, Big Data et CRM performantes, pragmatiques et adaptées AMOA
  8. 8. © 8 Delivery : continuum de services et souplesse Think Build Run Délégation d’expertise Mode Projet Centre de services
  9. 9. © 9 Programme relationnel multi-devices et remarketing. Ecoute et analyse des sentiments des clients sur les réseaux sociaux. Centre de services de gestion des campagnes marketing multicanal. Data Management Platform et marketing multicanal temps réel. Centre de services datamining, campagnes ciblées et reportings. Gestion des opérations marketing ciblées. Data Management Platform, CRM et web analytics. Conception de l’architecture décisionnelle hybride big data – datawarehouse. Centre de services gestion de campagnes marketing et connaissance clients. Convergence des pratiques et des outils marketing on et offline. Mise en place d’une Data Management Platform (DMP) et de use cases marketing. Déploiement d’une plate-forme CRM multi- marques multi-pays. Personnalisation temps réel des contenus et valorisation d’audience. Définition d’une stratégie de Business Intelligence. Pilotage de la qualité de l’expérience client. Extraits de références 2014-2015
  10. 10. © 10 Experts reconnus blog.softcomputing.com/ fr.slideshare.net/softcomputing twitter.com/#!/SoftComputing linkedin.com/company/soft-computing facebook.com/softcomputing softcomputing.com/fr/news/ InformerEcrire Enseigner
  11. 11. © 11 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  12. 12. © 12 Défi technique #1 : se préparer à gérer des volumes inimaginables 2005 2015
  13. 13. © 13 Défi technique #2 : sortir de la quadrature du triangle 2005 2015 Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interrompt » Cohérence « Les commits rendent l’ensemble des données cohérentes » Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interromp » Cohérence « Les commits rendent l’ensemble des données cohérentes » Commit en 2 phases
  14. 14. © 14 Défi technique #3 : exécuter tout calcul en moins de 0,14 secondes 2005 2015 Trading Desk (ATD) Editeur de site Demand Side Platform (DSP) Ad exchange (Adex) Supply Side Platform (SSP) Annonceur ou Agence média Ad Server de l’éditeur ou Ad network RTB & programmati que
  15. 15. © 15 Un segment (sur?) peuplé Xaas Hardware Projets Open SourceDistributions Données AnalyseVisualisation Application EMR Bigquery Professionnal services (tec & biz)
  16. 16. © 16 On aborde la vallée des désillusions Big Data
  17. 17. © 17 Encore un concept ?
  18. 18. © 18 Data lake : c’est quoi encore cette nouvelle invention ?
  19. 19. © 19 Data Lake : c’est quoi ? Transactionnel Data Warehouse Data lake Pas de structure pré-déterminée Pas de préjugés sur les traitements Donnée structurées ET non structurées Sources internes ET autres Stockage document (type Hadoop) Historisation Haute volumétrie Schéma en étoile Optimisé/traitements déterministe Donnée structurées Sources internes Stockage relationnel
  20. 20. © 20 Mais pourquoi tout stocker sans savoir pourquoi ? « Since the inception of ebay, not a single data was deleted ! » #1 : ça peut servir un jour. En plus, ils le font tous dans la Silicon Valley. #2 : et puis, vu ce que ça coûte maintenant, ce serait dommage de s’en priver. « le prix du stockage baisse de 40% par an, soit une division par 1000 en 15 ans »
  21. 21. © 21 Une finalité et la réalité business quand même Améliorer la performance de détection / de prévision avec des données exogènes Agilité, pertinence, auto apprentissage Personnalisation one to oneIdentifier et optimiser les parcours omnicanaux #3 : Créer de la valeur autour des données
  22. 22. © 22 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  23. 23. © 23 Quelle promesse ? Si la puissance de traitement est illimitée … … alors, il est possible de créer les relations à la volée dans les requêtes
  24. 24. © 24 On y met quoi dans un data lake ? Données des SI Données du Data Warehouse Tweets Assets digitaux Logs webs Open Data Documents Office Messagerie historisée Calculs datascientists
  25. 25. © 25 Démocratisation : de plus en plus de données en libre service
  26. 26. © 26 Démocratisation : de plus en plus de données à coût modique
  27. 27. © 27 Et on s’y retrouve comment dans toutes ces données ?
  28. 28. © 28 Et si on ne sait pas programmer ? Self Service BI : Découverte de relations Langage naturel
  29. 29. © 29 Et si on ne sait pas programmer ? Datavisualisation : Ergonomie utilisateur Génération des requêtes Big Data
  30. 30. © 30 Et si on ne sait pas programmer ? : analytique ML en cloud
  31. 31. © 31 Et si on ne sait pas programmer ? : ML « as a service »
  32. 32. © 32 Comment est assurée la qualité des données dans un data lake ?
  33. 33. © 33 Finalement, on fait quoi d’un data lake ? MarketingDatascience Programmation Stocker Explorer Transformer Modéliser Appliquer
  34. 34. © 34 Et il faut quoi pour travailler sur un data lake ? Query BI Dataviz Statistique Machine learning Script Langage Environne ment Couche d’accès
  35. 35. © 35 Connecteurs Loader Couche d’accès Query StockerExplorerTransformerModéliserAppliquer BI Dataviz Statistique Machine learning Script Langage Environne ment Fonctions * outillage
  36. 36. © 36 Comment mon datalake s’intègre dans mon architecture applicative ? DWH RCU Data lake / Exploratoire Bacs à sable / Analytique DMP (Cloud) • Collecte et réconciliation des id et évènements digitaux • Ciblage d’audience • Envoi cibles vers DSP pour display/RTB • Reporting EMA – Campagnes indus. et omnicanal • Ciblage • Paramétrage des campagnes • Push sur les canaux, test&learn • Cohérence de communication • Gestion de la pression commerciale CMS Moteur reco produit Moteur Mktg (décision tps réel message/offre/canal sur sollicitation entrante) 3d party • Enrich. profils • Extension d’audience Base étude Réservoir de données SIO SIO APIAPI APIAPI Analyse exploratoire, datavisualisation Etudes, Datamining Reporting DMT dynamique alimenté en temps réel ou asynchrone (Profils et id clients) Ventes, Màj réfs. … Webana TMS Evènements digitaux (réaction, logs) Enrich. Data CRM Réf. Digital Data collectées/réconciliées Ciblages Données de diffusion (print) Cibles identifiées vers display (adhoc) Cibles identifiées vers canaux internes (adhoc) Fiches clients Id clients et critères clés (pré-ciblage) Ciblages, retours campagnes, Repoussoirs Display/RTB DSP API DSP API CWH SMSEmail Push mobileGRC Eventprocessing
  37. 37. © 37 Synthèse des points clés du Datalake + Données Détail Temps réel Prédictif Non- structuré Ouvert sur l’extérieur Autonome Hybride
  38. 38. © 38 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  39. 39. © 39 Architecture globale Lab data Large Data Fast Data Prototyper l’algorithme Produire les résultats Suivre et optimiser la performance l’algorithme Proposer des substitutions Intégrer l’algorithme Développer l’algorithme
  40. 40. © 40 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  41. 41. © 41 Données : DigitalesCRM Penser applications opérationnelles et débuter simple R.O.I. Connaissance Productivité opérationnelle Analyses ad’hoc Vision produit Vision clients Technologies 1 2 3 4 ModélisationRéconciliation Externes
  42. 42. © 42 Aligner les compétences MarketingDatascience Data manager
  43. 43. © 43 Pour faire quoi ? MarketingDatascience Data manager Stocker Explorer Transformer Modéliser Appliquer
  44. 44. © 44 Trois points de vigilances à anticiper CNIL SECURITE GOUVERNANCE
  45. 45. © 45 Combien ça coûte ? X * 100 K€ / an Batch As a service X * 1 M€ / an Industrialisation Temps réel Datawahouse+big data
  46. 46. © 46 Reconsidérer chaque année les ROI : les barrières à l’entrée baissent toujours plus
  47. 47. © 47 SOMMAIRESommaire 1. Introduction 2. Data lake: le décor et de quoi parle-t-on ? 3. Data lake : les promesses et les risques 4. Data lake : cas d’usages 5. Data Lake : démarche, pièges à éviter, retours d’expérience 6. Data Lake : pour avancer
  48. 48. © 48 Comment débuter, avec tous ces nouveaux enjeux opérationnels, Et malgré tous les freins ?  Captation de la donnée sur les canaux numériques : – Stratégie de taggage – Stratégie de cookiefication – Créer un master ID marketing  Analyse : – Enrichir les modèles de connaissance clients actuels – Intégrer les opportunités offertes par les nouvelles données  Activation : – Optimiser / internaliser la gestion des achats médias – Construire un contrat relationnel avec mes clients – Garantir la cohérence de communication cross canaux  Mesure : – Quels KPI’s de performance ? – Quels modèles d’attribution ? – Quels taux de ROI ?  …
  49. 49. © 49 Pour créer les conditions de l’appropriation : Testez, Utilisez, Vérifiez… Avec l’offre « Soft Computing DataLakeReady » Découvrir les nouvelles solutions logiciels et systèmes Acquérir des compétences Identifier les enjeux technologiques Collecter de nouveaux types de données Conserver, historiser, garder à disposition, sécuriser les datas Découvrir les opportunités et gisements de valeurs Modéliser des uses case à forte valeur Tester leur mise en œuvre avec un faible TTM et des coûts réduits Déployer des pilotes opérationnels et mesurer la réalité des ROI
  50. 50. © 50 Libérer les opportunités: log, stream, transaction Streams sociaux Weblogs Capteurs E-mails Transactions Pages web Documents scannés Trace GPS Données de marché Enregistrements Video-surveillance Données d’usage
  51. 51. © 51 Soft computing : un continuum de services complets Valorisation des données Fondations Roadmap Architecture Convergence BI/Big Data Définition de solutions Mise en œuvre et intégration Analyses sémantiques, prédictives Visualisation de données Labs, Data scientists Conseil / Use case Infrastructure à la demande Mise à disposition de solutions Big Data Pocs Hadoop Cloud privé, hébergement Transformation du SI Accompa- gnement au changement
  52. 52. © 52

×