IBM Data lake

2 376 vues

Publié le

Concept du Data Lake présenté par Christophe BERTIN

Publié dans : Technologie
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 376
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
111
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

IBM Data lake

  1. 1. Christophe Bertin Avant-Vente IBM MDM Christophe.bertin@fr.ibm.com +33 676756751 La Gouvernance : clé pour le succès des initiatives Analytics
  2. 2. Les données font la richesse métier de demain “We will look back on this time and look at data as a natural resource that powered the 21st century” Ginni Rommety IBM CEO February 2014
  3. 3. 80% des données existantes sont des données non structurées
  4. 4. 80% des données existantes sont des données non structurées h 12% des données sont utilisées
  5. 5. 80% des données existantes sont des données non structurées h 12% des données sont utilisées h 20% de ces données sont considérées comme fiables
  6. 6. Une nouvelle façon de gérer “BIG DATA” des données avec le Touttypededonnées Beaucoupdevolume Desinformationsprécieusesmaisdifficilesàextraire Souventtrèssensiblesautemps
  7. 7. Quels sont les apports d'une plate-forme Big Data? Analyser des informations variées Intégrerdansdenouvellesanalysesdesinformationsquine l'étaientpasavant Analyser des informations en mouvement Utiliserlestreamingdanslesanalyses Lancerdesanalysessurdesdonnéesenmouvement Analyser de fort volume d'information Lancerdesanalysessurdesvolumesgigantesques d'informationenréduisantlecoûtdeceprocessus Géreretanalyserdefortsvolumesdedonnéesstructuréeset relationnelles Découvrir et Expérimenter Utiliserl'analyseAd$hoc,larecherchedanslesdonnées existantesetl'expérimentation Gérer Planifier Identifierlastructuredesdonnées,l'intégrité etlecontrôlepourassurerlacohérencedes requêtesrépétitives
  8. 8. L'apport de IBM avec InfoSphere BigInsights Scalable • De nouveaux noeuds peuvent être ajoutés au fil de l'eau Abordable • Traitement massivement parallèle sur des serveurs standards Flexible • Hadoop ne nécessite pas de schéma de données et peut donc stocker tout type de données Tolérant à la panne • A l'aide d'un framework de traitement parallèle MapReduce + IBM Innovation Performance fiabilité • Adaptive MapReduce, Compression, BigIndex, Scheduler flexible Accélérateurs pour l'analytique Accélérateurs pour la productivité • Écran de gestion Web • Outils de gestion évolués • Écran de visualisation métier Intégration dans l'Enterprise • Pour étendre et enrichir la chaine d'information
  9. 9. Les nouveaux scénarios métiers qui émergent Les experts métiers veulent un accès souple aux informations générées par leurs organisations au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par exemple : Les Data Scientists recherchent des données pour identifier de nouveaux modèles analytiques Les Marketeurs recherchent des données pour de nouvelles campagnes Les Gestionnaires de Fraude recherchent des données pour mieux comprendre les activités suspectes • Activité au jour le jour. • Donner un accès spécifique sur une grande variété de sources d'information • Améliorer les analyses et les prises de décision • Utiliser les terminologies métiers. Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données. Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.
  10. 10. Data Lake La mise en place du concept du Data Lake Les utilisateurs métiers veulent ➢ Des outils d'analyse et de visualisation plus puissants ➢ Un accès ouvert à plus d'informations L'équipe IT s'inquiète ➢ des coûts induits ➢ De la gouvernance et des exigences réglementaires Undatalake,paroppositionàundatawarehouse,contientun ensemblededonnéesnonstructuréesoumulti$structuréesquipour laplupartnon pas encore été reconnues comme données de valeurpourl'entrepriseetquisontstockéessousune forme brute. Al'opposédesdonnéesdudatawarehousequisontcensésavoirété nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten attente d'application ou d'analysepourdécouvrirleurvaleur. Undatalake,paroppositionàundatawarehouse,contientun ensemblededonnéesnonstructuréesoumulti$structuréesquipour laplupartnon pas encore été reconnues comme données de valeurpourl'entrepriseetquisontstockéessousune forme brute. Al'opposédesdonnéesdudatawarehousequisontcensésavoirété nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten attente d'application ou d'analysepourdécouvrirleurvaleur.
  11. 11. La notion de Data Réservoir Un Data reservoir est un data lake qui met à disposition de l'information à une organisation pour permettre la mise en place de plusieurs typologie d'analyse : • Découverte et exploration des données • Analyses complexes pour la prise de décision • Reporting • Analyse temps réel Il est possible de déclencher de nouvelles analyses depuis les données du Data Reservoir pour créer de nouvelles valeurs métier. Un data reservoir met en place la notion de référentiel d'information partagées. Chaque Référentiel du Data Reservoir est optimisé pour un certain type de traitement. • Analyses en temps réel, d'analyse complexe (comme le data mining), les analyses exploratoires, OLAP, reporting, ... Data Reservoir Services Data Reservoir Repositories Information Management and Governance Fabric Data Reservoir Les données de valeur peuvent être répliquées dans plusieurs référentiels du data reservoir. Cependant, le data reservoir doit s'assurer que cette données copiée ou modifiée est correctement gérée et gouvernée . L'information contenue dans le data reservoir doit être rendue accessible via différents types d'interfaces ) travers des Data Reservoir Services.
  12. 12. Schéma logique du Data reservoir Line of Business Applications Decision Model Management Governance, Risk and Compliance Team Simple, Ad Hoc Discovery and Analytics Reporting E v ents to E v a lua te Informa tion S erv ic e C a lls D ata Feed Out D a ta Feed In Unders tand Informa tion S ourc es S ea rch Reques ts Informa tion S erv ic e C a lls Information Curator Unders tand Informa tion S ourc es D eploy D ec is ion Models Unders tand C omplianc e Report C omplianc e Informa tion S erv ic e C a lls D a ta E x port Adv ertis e Informa tion S ourc e Informa tion Federa tion C a lls D eploy Rea l-time D ec is ion Models D eploy Rea l-time D ec is io n Models Mobile and other Channels Support Services Other Data ROestheervroirs Data Lakes Inter-la ke E x chang e Data Reservoir Operations C ura tion Intera c tion Mana g ement Notif ic a tions D a ta Import Enterprise IT System of Record Applications Front Office Applications Back Office Applications Enter prise Service Bus New Sources Third Party Feeds Third Party Services Internal Sources 10001 01011 01101 Data Reservoir
  13. 13. La problématique de la gouvernance de l'information Au moment de la collecte : • Peut-on préserver la validité de l'information? • Sait-on identifier ce que l'on collecte? • Peut-on identifier l'information dont on aura besoin? Comment peut-on introduire de la confiance dans le Data Lake? • Connait-on vraiment l'usage des données? Ne crée-t-on pas un marais?
  14. 14. Schéma logique du Data reservoir Line of Business Applications Decision Model Management Governance, Risk and Compliance Team Simple, Ad Hoc Discovery and Analytics Reporting E v ents to E v a lua te Informa tion S erv ic e C a lls D ata Feed Out D a ta Feed In Unders tand Informa tion S ourc es S ea rch Reques ts Informa tion S erv ic e C a lls Information Curator Unders tand Informa tion S ourc es D eploy D ec is ion Models Unders tand C omplianc e Report C omplianc e Informa tion S erv ic e C a lls D a ta E x port Adv ertis e Informa tion S ourc e Informa tion Federa tion C a lls D eploy Rea l-time D ec is ion Models D eploy Rea l-time D ec is io n Models Mobile and other Channels Support Services Other Data ROestheervroirs Data Lakes Inter-la ke E x chang e Data Reservoir Operations C ura tion Intera c tion Mana g ement Notif ic a tions D a ta Import Enterprise IT System of Record Applications Front Office Applications Back Office Applications E nterprise Service Bus New Sources Third Party Feeds Third Party Services Internal Sources 10001 01011 01101 Data Reservoir Data Reservoir Report Queries Catalog Interfaces Raw Data Interaction Data Refineries View-based Interactio n Information Integration Governance D a ta E x port D ata Import Data Reservoir Repositories
  15. 15. L'intégration des données est une opération succès d'un projet Hadoop critique dans le Extract, Transform, and Load Big Data With Apache Hadoop - White Paper https://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop. pdf “Pour la plupart des comptes 80% de l'effort de développement d'un grand projet de données va dans l'intégration de données Va vers l'analyse des données.” …et seulement 20% La plupart des initiatives Hadoop impliquent la collecte, le déplacement, la transformation, le nettoyage, l'intégration, l'exploration et l'analyse d'un volume important de sources et des types de données disparates.
  16. 16. Que mettre en oeuvre pour résoudre d'intégration ? ce problème Hadoop n'est pas une plate-forme d'intégration de données, 80% des travaux concernent l'intégration pour lequel MapReduce est lent Les facteurs clés de succès d'un projet d'intégration dans le big data Pour passer en production, vous avez besoin de vous assurer d'avoir pris en compte tous les besoins d'intégration : Le codage manuel ne permet pas d'atteindre l'objectif de scalabilité, flexibilité, ou de performance L'ELT seul n'est pas suffisant pour répondre à la plupart des exigences d’intégration, parce que vous ne pouvez pas pousser toute la logique de l'intégration de données dans l'entrepôt de données ou dans Hadoop
  17. 17. Nous avons adapté notre catalogue gouvernance de l'information au pér idmeè gtrees dtiuo nB dige Dlaa ta
  18. 18. IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sûre pour s'intégrer Adaptable Estcapabledepanacher son approche d'intégrationenutilisant lescapacitésnativesd'ETL,d'ELT ainsiquedéployerdesjobsdans Hadoop Dynamique et extensible Gagne instantanémentdela performancedèsqu'uneressource matériellesupplémentaireluiest allouée Partitionnement des données Envraigestionparallèle(comme Hadoop),ladonnéeestmaintenue dansl'outild'intégrationetstockéeen parallèlepourpermettrelascalabilité Intégration Hadoop Pousseztoutoupartieduprocessus versHadooppourprofiterdeson évolutivitéenmodeELT. SSoouurrccee DDaattaa SSoouurrccee DDaattaa Sequential DDiisskk CCPPUU MMeemmoorryy TTrraannssffoorrmm CClleeaannssee EEnnrriicchh EEEEDDDDWWWW 4-way Parallel 64-way Parallel DDisiskk CCPPUU CCPPUU CCPPUU CCPPUU Shared Memory Shared Memory Uniprocessor SMP System MPP Clustered System
  19. 19. Comprendre …donner du co Cntoelxlateb oerte dre la pertinence aux informations du data lake Shop for Data Permet à tout utilisateur de trouver des sources de données contextualisées et d'explorer les détails pour identifier les données les plus pertinentes Smart Hover Voir instantanément un sommaire d'information sur les données Collect Share Organiser les données en «collections», y ajouter du contexte, et les partager avec d'autres utilisateurs Lineage@Scale Nouvel outil de linéage graphique pour rendre les flux d'entreprise plus opérationnels et lisibles Réduction de la complexité Réduction de la complexité Meilleure supervision Meilleure supervision Agilité Agilité Compréhension Compréhension Information Governance Catalog
  20. 20. IBMInfosphere, les clefs de la construction d'un Data Reservoir Information Integration Governance Information Broker S ta g ing Are a s Monitor Work f ol w Operational Governance Hub Code Hub Le data reservoir a besoin d'une gouvernance et d'une gestion du changement pour s'assurer que l'information est protégée et gérée de manière efficace. La première étape dans la création du reservoir est d'établir les règles d'intégration et de gouvernance, de mettre en place les staging areas, le catalogue des métadonnées et une terminologie commune. La construction s'opère ensuite de manière itérative : • Établissement de la gouvernance autour d'un sujet métier. • Mise en place de la gestion des sources d'information • Mise en place des vues métiers • Etablissement des premières analyses • Mise en place des règles de gestion opérationnelles
  21. 21. Exemple d'utilisation classique sur la gouvernance de notre approche ● Etablir les principes de la gouvernance (rôles, règles, acteurs...) ● Etablir le dictionnaire métier Information Governance Catalog ● Travailler les métadonnées (Création, regroupement, classification, annotation et surtout lien avec le dictionnaire métier) ● Lier les métadonnées et le dictionnaire aux différents jobs d'extraction
  22. 22. Les bénéfices courts et long termes apportés ● Identifier des assets en utilisant une terminologie métier ● Utiliser des requêtes pour localiser des sources d'information ● Identifier des sources d'informations en utilisant des tags ● Identifier des sources d'informations en utilisant des collections ● Explorer et accéder rapidement à l'information Récupérer rapidement des données dans des sandbox en utilisant le dictionnaire métier pour identifier les sources d'information à utiliser
  23. 23. Pour aller plus loin dans la compréhension des informations Comment éviter la confusion et bien cerner le sens de l'information en travaillant la notion de contexte
  24. 24. Comment redonner du sens aux données à forte valeur ajoutée : Clients, Produits, Contrats, Assets, Employés, Partenaires, sous-traitants … Identifier les similitudes à Connector Framework l'aide d'algorithmes probabilistes et y associer des données de contexte : •Les flux web RSS •Les données sociales •Les CMS •Les documents non structurés •Emails / Conversations…
  25. 25. Annexe
  26. 26. Prochains Bootcamps ● 7/10Octobre:DataQualityFund.Bootcamp – http://www$304.ibm.com/events/idr/idrevents/register.action? meid=16615ieid=11789 ● 3/7Novembre:DataGovernancewithInfoSphereInformationServer Bootcamp – http://www$304.ibm.com/events/idr/idrevents/register.action? meid=4614ieid=12019
  27. 27. Une overview de l'architecture de référence Big Data et Analytique http://www.redbooks.ibm.com/Redbooks.nsf/Redbook Abstracts/redp5012.html?Open
  28. 28. Détail des approches disponibles scalabilité de l'intégration dans du p Boiugr Dfaactailiter la DansuneBDD Avantages: ExploitelemoteurMPPdelaBDD Minimiseletransfertdedonnées Utiliselacapacitédeliensetd'agrégation desBDD Marchetrèsbienavecdesdonnées propres LibèredelaressourceETL Utiliseaumieuxlesressourcesdela BDD LemoteurdeBDDestplusrapidesur certainsprocessus Inconvénients: Matérieletstockagetrèscher Peunécessité100%derecoursàl'ELT DégradationdesSLAdesquery Toutelalogiqued'unETLnepeutêtre reproduiteautraversdesBDD (nécessitel'utilisationd'unoutild'ETLou derequêtesSQLcodéesàlamain) Nepeututiliserdesserveursstandards Necessitedelaprogrammation Estlimitépourlestransformations complexes Estlimitépourlesopérationsde nettoyage LemoteurdeBDDestmoinsperformant surcertainsprocessus L'ELTpeutconsommerdesressources BDD(ilestdifficiledeplanifierl'allocation desressources) Endehorsd'uneBDD oud'Hadoop Avantages : ExploitelemoteurMPPdel'ETL Exploitedesserveursstandards Exploitedesgrillesdeserveurs Permetdestransformationscomplexes(data cleansing) LibèrelesressourcesdesBDD Travaillesurdessourcesdedonnéeshétérogènes (nonstockéesdansdesBDD) LemoteurETLestplusrapidesurcertains processusdetransformation Inconvénients: LemoteurETLestmoinsperformantsurcertains processus(donnéesstockéesdansdesbases relationnelles) Peunécessitédelaressourcesupplémentaire Design Job Once DansHadoopavecousans MapReduce Avantages: ExploitelemoteurMPPMapReduce Exploitedesserveursstandards LibèrelesressourcesdesBDD Supporteletraitementdesdonnéesnon structurées Exploitelespossibilitéd'Hadooppourla persistancedesdonnées (update et indexation ) Coûtréduitpourl'archivageetl'historisation Inconvénients: Toutelalogiqued'unETLnepeutêtre reproduiteautraversdesBDD(nécessite l'utilisationd'unoutild'ETLouderequêtesSQL codéesàlamain) Peunécessiterdelaprogrammationcomplexe MapReduceestgénéralementmoinsrapide qu'unmoteurdeBDDparalléliséouunETLen cluster Hadoopestunejeunetechnologieparencore arrivéeàmaturité Run and scale anywhere
  29. 29. Les acteurs embarqués dans le Data Reservoir Governor; appoint an individual to coordinate the definition of policies related to information governance and their implementation. Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in information quality processes such as the exception management process. Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information supply chain. Integration Developer; maintaining the data movement functionality in, around and out of the data lake. Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems that support the information supply chain. 10001 01011 01101 Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand patterns of success. Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be improved, and define new procedures, rules, and requirements for the IT systems. Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable for ensuring it is capable of supporting the organization’s activities. Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and compare it with agreed processes. Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user interfaces and access rights to provide these individuals access to the information supply chain through the information processes.

×