IBM Data lake

Christophe Bertin Avant-Vente IBM MDM
Christophe.bertin@fr.ibm.com +33 676756751
La Gouvernance : clé pour le succès des initiatives
Analytics

Les données font la richesse métier de demain
“We will look
back on this
time and look at
data as a
natural
resource that
powered the
21st century”
Ginni Rommety
IBM CEO
February 2014

80% des données
existantes sont des
données non
structurées

80% des données
existantes sont des
données non
structurées
h
12% des données
sont utilisées

80% des données
existantes sont des
données non
structurées
h
12% des données
sont utilisées
h
20% de ces
données sont
considérées
comme fiables

Une nouvelle façon de gérer “BIG DATA” des données avec le
Touttypededonnées
Beaucoupdevolume
Desinformationsprécieusesmaisdifficilesàextraire
Souventtrèssensiblesautemps

Quels sont les apports d'une plate-forme Big Data?
Analyser des informations variées
Intégrerdansdenouvellesanalysesdesinformationsquine
l'étaientpasavant
Analyser des informations en mouvement
Utiliserlestreamingdanslesanalyses
Lancerdesanalysessurdesdonnéesenmouvement
Analyser de fort volume d'information
Lancerdesanalysessurdesvolumesgigantesques
d'informationenréduisantlecoûtdeceprocessus
Géreretanalyserdefortsvolumesdedonnéesstructuréeset
relationnelles
Découvrir et Expérimenter
Utiliserl'analyseAd$hoc,larecherchedanslesdonnées
existantesetl'expérimentation
Gérer Planifier
Identifierlastructuredesdonnées,l'intégrité
etlecontrôlepourassurerlacohérencedes
requêtesrépétitives

L'apport de IBM avec InfoSphere BigInsights
Scalable
• De nouveaux noeuds peuvent être
ajoutés au fil de l'eau
Abordable
• Traitement massivement parallèle
sur des serveurs standards
Flexible
• Hadoop ne nécessite pas de schéma
de données et peut donc stocker tout
type de données
Tolérant à la panne
• A l'aide d'un framework de traitement
parallèle MapReduce
+ IBM Innovation
Performance fiabilité
• Adaptive MapReduce, Compression,
BigIndex, Scheduler flexible
Accélérateurs pour l'analytique
Accélérateurs pour la productivité
• Écran de gestion Web
• Outils de gestion évolués
• Écran de visualisation métier
Intégration dans l'Enterprise
• Pour étendre et enrichir la chaine
d'information

Les nouveaux scénarios métiers qui émergent
Les experts métiers veulent un accès souple aux informations générées par leurs organisations
au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant
leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par
exemple :
Les Data Scientists recherchent des données pour
identifier de nouveaux modèles analytiques
Les Marketeurs recherchent des données pour de
nouvelles campagnes
Les Gestionnaires de Fraude recherchent des
données pour mieux comprendre les activités
suspectes
• Activité au jour le jour.
• Donner un accès spécifique sur une
grande variété de sources d'information
• Améliorer les analyses et les prises de
décision
• Utiliser les terminologies métiers.
Mettre à disposition un tableur capable
d'évoluer à grands volumes, avec une
grande variété de types d'informations
tout en protégeant les informations
sensibles et en optimisant le stockage et
l'alimentation des données.
Mettre à disposition un tableur capable
d'évoluer à grands volumes, avec une
grande variété de types d'informations
tout en protégeant les informations
sensibles et en optimisant le stockage et
l'alimentation des données.

Data Lake
La mise en place du concept du Data Lake
Les utilisateurs métiers veulent
➢ Des outils d'analyse et de visualisation plus puissants
➢ Un accès ouvert à plus d'informations
L'équipe IT s'inquiète
➢ des coûts induits
➢ De la gouvernance et des exigences réglementaires
Undatalake,paroppositionàundatawarehouse,contientun
ensemblededonnéesnonstructuréesoumulti$structuréesquipour
laplupartnon pas encore été reconnues comme données de
valeurpourl'entrepriseetquisontstockéessousune forme brute.
Al'opposédesdonnéesdudatawarehousequisontcensésavoirété
nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications
spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten
attente d'application ou d'analysepourdécouvrirleurvaleur.
Undatalake,paroppositionàundatawarehouse,contientun
ensemblededonnéesnonstructuréesoumulti$structuréesquipour
laplupartnon pas encore été reconnues comme données de
valeurpourl'entrepriseetquisontstockéessousune forme brute.
Al'opposédesdonnéesdudatawarehousequisontcensésavoirété
nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications
spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten
attente d'application ou d'analysepourdécouvrirleurvaleur.

La notion de Data Réservoir
Un Data reservoir est un data lake qui met à
disposition de l'information à une
organisation pour permettre la mise en
place de plusieurs typologie d'analyse :
• Découverte et exploration des données
• Analyses complexes pour la prise de décision
• Reporting
• Analyse temps réel
Il est possible de déclencher de nouvelles
analyses depuis les données du Data
Reservoir pour créer de nouvelles valeurs
métier.
Un data reservoir met en place la notion de
référentiel d'information partagées.
Chaque Référentiel du Data Reservoir est
optimisé pour un certain type de
traitement.
• Analyses en temps réel, d'analyse complexe
(comme le data mining), les analyses
exploratoires, OLAP, reporting, ...
Data Reservoir Services
Data Reservoir Repositories
Information Management and Governance Fabric
Data Reservoir
Les données de valeur peuvent être
répliquées dans plusieurs référentiels du data
reservoir. Cependant, le data reservoir doit
s'assurer que cette données copiée ou
modifiée est correctement gérée et
gouvernée .
L'information contenue dans le data reservoir
doit être rendue accessible via différents
types d'interfaces ) travers des Data
Reservoir Services.

Schéma logique du Data reservoir
Line of Business
Applications
Decision Model
Management
Governance, Risk and
Compliance Team
Simple,
Ad Hoc
Discovery
and
Analytics
Reporting
E v ents to
E v a lua te
Informa tion
S erv ic e C a lls
D ata Feed
Out
D a ta Feed
In
Unders tand
Informa tion
S ourc es
S ea rch
Reques ts
Informa tion
S erv ic e C a lls
Information
Curator
Unders tand
Informa tion
S ourc es
D eploy
D ec is ion
Models
Unders tand
C omplianc e
Report
C omplianc e
Informa tion
S erv ic e C a lls
D a ta
E x port
Adv ertis e
Informa tion
S ourc e
Informa tion
Federa tion
C a lls
D eploy
Rea l-time
D ec is ion
Models
D eploy
Rea l-time
D ec is io
n
Models
Mobile and other
Channels
Support
Services
Other
Data ROestheervroirs
Data Lakes
Inter-la ke
E x chang e
Data Reservoir Operations
C ura tion
Intera c tion
Mana g ement
Notif ic a tions
D a ta
Import
Enterprise IT
System of Record
Applications
Front Office
Applications
Back Office
Applications
Enter prise Service Bus
New Sources
Third Party Feeds
Third Party Services
Internal Sources
10001
01011
01101
Data Reservoir

La problématique de la gouvernance de l'information
Au moment de la collecte :
• Peut-on préserver la validité de
l'information?
• Sait-on identifier ce que l'on collecte?
• Peut-on identifier l'information dont
on aura besoin?
Comment peut-on introduire de la
confiance dans le Data Lake?
• Connait-on vraiment l'usage des
données?
Ne crée-t-on pas un marais?

Schéma logique du Data reservoir
Line of Business
Applications
Decision Model
Management
Governance, Risk and
Compliance Team
Simple,
Ad Hoc
Discovery
and
Analytics
Reporting
E v ents to
E v a lua te
Informa tion
S erv ic e C a lls
D ata Feed
Out
D a ta Feed
In
Unders tand
Informa tion
S ourc es
S ea rch
Reques ts
Informa tion
S erv ic e C a lls
Information
Curator
Unders tand
Informa tion
S ourc es
D eploy
D ec is ion
Models
Unders tand
C omplianc e
Report
C omplianc e
Informa tion
S erv ic e C a lls
D a ta
E x port
Adv ertis e
Informa tion
S ourc e
Informa tion
Federa tion
C a lls
D eploy
Rea l-time
D ec is ion
Models
D eploy
Rea l-time
D ec is io
n
Models
Mobile and other
Channels
Support
Services
Other
Data ROestheervroirs
Data Lakes
Inter-la ke
E x chang e
Data Reservoir Operations
C ura tion
Intera c tion
Mana g ement
Notif ic a tions
D a ta
Import
Enterprise IT
System of Record
Applications
Front Office
Applications
Back Office
Applications
E nterprise Service Bus
New Sources
Third Party Feeds
Third Party Services
Internal Sources
10001
01011
01101
Data Reservoir
Data Reservoir
Report
Queries
Catalog
Interfaces
Raw Data
Interaction
Data
Refineries
View-based
Interactio
n
Information Integration Governance
D a ta
E x port
D ata
Import
Data Reservoir
Repositories

L'intégration des données est une opération succès d'un projet Hadoop critique dans le
Extract, Transform, and Load Big Data With Apache Hadoop - White Paper
https://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.
pdf
“Pour la
plupart
des
comptes
80% de l'effort de développement
d'un grand projet de
données va dans
l'intégration de données
Va vers l'analyse des
données.”
…et
seulement 20%
La plupart des
initiatives Hadoop
impliquent la
collecte, le
déplacement, la
transformation, le
nettoyage,
l'intégration,
l'exploration et
l'analyse d'un
volume important
de sources et des
types de données
disparates.

Que mettre en oeuvre pour résoudre d'intégration ? ce problème
Hadoop n'est pas une
plate-forme
d'intégration de
données, 80% des
travaux concernent
l'intégration pour lequel
MapReduce est lent
Les facteurs clés de succès d'un projet
d'intégration dans le big data
Pour passer en production,
vous avez besoin de vous
assurer d'avoir pris en
compte tous les besoins
d'intégration : Le codage
manuel ne permet pas
d'atteindre l'objectif de
scalabilité, flexibilité, ou de
performance
L'ELT seul n'est pas suffisant
pour répondre à la plupart
des exigences d’intégration,
parce que vous ne pouvez
pas pousser toute la logique
de l'intégration de données
dans l'entrepôt de données
ou dans Hadoop

Nous avons adapté notre catalogue gouvernance de l'information au pér idmeè gtrees dtiuo nB dige Dlaa ta

IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sûre pour s'intégrer
Adaptable
Estcapabledepanacher son
approche d'intégrationenutilisant
lescapacitésnativesd'ETL,d'ELT
ainsiquedéployerdesjobsdans
Hadoop
Dynamique et extensible
Gagne instantanémentdela
performancedèsqu'uneressource
matériellesupplémentaireluiest
allouée
Partitionnement des données
Envraigestionparallèle(comme
Hadoop),ladonnéeestmaintenue
dansl'outild'intégrationetstockéeen
parallèlepourpermettrelascalabilité
Intégration Hadoop
Pousseztoutoupartieduprocessus
versHadooppourprofiterdeson
évolutivitéenmodeELT.
SSoouurrccee
DDaattaa
SSoouurrccee
DDaattaa
Sequential
DDiisskk
CCPPUU
MMeemmoorryy
TTrraannssffoorrmm CClleeaannssee EEnnrriicchh
EEEEDDDDWWWW
4-way Parallel 64-way Parallel
DDisiskk
CCPPUU CCPPUU
CCPPUU CCPPUU
Shared
Memory
Shared
Memory
Uniprocessor SMP System MPP Clustered System

Comprendre …donner du co Cntoelxlateb oerte dre la pertinence aux informations du data lake
Shop for Data
Permet à tout
utilisateur de
trouver des sources
de données
contextualisées et
d'explorer les
détails pour
identifier les
données les plus
pertinentes
Smart Hover
Voir
instantanément un
sommaire
d'information sur
les données
Collect Share
Organiser les
données en
«collections», y
ajouter du
contexte, et les
partager avec
d'autres utilisateurs
Lineage@Scale
Nouvel outil de
linéage graphique
pour rendre les flux
d'entreprise plus
opérationnels et
lisibles
Réduction de la complexité
Réduction de la complexité
Meilleure supervision
Meilleure supervision
Agilité
Agilité
Compréhension
Compréhension
Information
Governance
Catalog

IBMInfosphere, les clefs de la construction d'un Data Reservoir
Information
Integration
Governance
Information
Broker
S ta g ing Are a s Monitor Work f ol w
Operational
Governance
Hub
Code
Hub
Le data reservoir a besoin d'une gouvernance et d'une gestion du changement
pour s'assurer que l'information est protégée et gérée de manière efficace.
La première étape dans la création du reservoir est d'établir les règles
d'intégration et de gouvernance, de mettre en place les staging areas, le
catalogue des métadonnées et une terminologie commune.
La construction s'opère ensuite de manière itérative :
• Établissement de la gouvernance autour d'un sujet métier.
• Mise en place de la gestion des sources d'information
• Mise en place des vues métiers
• Etablissement des premières analyses
• Mise en place des règles de gestion opérationnelles

Exemple d'utilisation classique sur la gouvernance de notre approche
● Etablir les principes de la
gouvernance (rôles,
règles, acteurs...)
● Etablir le dictionnaire
métier
Information
Governance
Catalog
● Travailler les métadonnées (Création, regroupement, classification,
annotation et surtout lien avec le dictionnaire métier)
● Lier les métadonnées et le dictionnaire aux différents jobs
d'extraction

Les bénéfices courts et long termes apportés
● Identifier des assets en utilisant une terminologie métier
● Utiliser des requêtes pour localiser des sources d'information
● Identifier des sources d'informations en utilisant des tags
● Identifier des sources d'informations en utilisant des collections
● Explorer et accéder rapidement à l'information
Récupérer rapidement des données dans des
sandbox en utilisant le dictionnaire métier
pour identifier les sources d'information à
utiliser

Pour aller plus loin
dans la
compréhension des
informations
Comment éviter la
confusion et bien
cerner le sens de
l'information en
travaillant la notion de
contexte

Comment redonner du sens
aux données à forte valeur
ajoutée :
Clients, Produits, Contrats,
Assets, Employés, Partenaires,
sous-traitants …
Identifier les similitudes à Connector Framework
l'aide d'algorithmes
probabilistes et y associer des
données de contexte :
•Les flux web RSS
•Les données sociales
•Les CMS
•Les documents non structurés
•Emails / Conversations…

Prochains Bootcamps
● 7/10Octobre:DataQualityFund.Bootcamp
– http://www$304.ibm.com/events/idr/idrevents/register.action?
meid=16615ieid=11789
● 3/7Novembre:DataGovernancewithInfoSphereInformationServer
Bootcamp
– http://www$304.ibm.com/events/idr/idrevents/register.action?
meid=4614ieid=12019

Une overview de l'architecture de référence Big
Data et Analytique
http://www.redbooks.ibm.com/Redbooks.nsf/Redbook
Abstracts/redp5012.html?Open

Détail des approches disponibles scalabilité de l'intégration dans du p Boiugr Dfaactailiter la
DansuneBDD
Avantages:
ExploitelemoteurMPPdelaBDD
Minimiseletransfertdedonnées
Utiliselacapacitédeliensetd'agrégation
desBDD
Marchetrèsbienavecdesdonnées
propres
LibèredelaressourceETL
Utiliseaumieuxlesressourcesdela
BDD
LemoteurdeBDDestplusrapidesur
certainsprocessus
Inconvénients:
Matérieletstockagetrèscher
Peunécessité100%derecoursàl'ELT
DégradationdesSLAdesquery
Toutelalogiqued'unETLnepeutêtre
reproduiteautraversdesBDD
(nécessitel'utilisationd'unoutild'ETLou
derequêtesSQLcodéesàlamain)
Nepeututiliserdesserveursstandards
Necessitedelaprogrammation
Estlimitépourlestransformations
complexes
Estlimitépourlesopérationsde
nettoyage
LemoteurdeBDDestmoinsperformant
surcertainsprocessus
L'ELTpeutconsommerdesressources
BDD(ilestdifficiledeplanifierl'allocation
desressources)
Endehorsd'uneBDD
oud'Hadoop
Avantages :
ExploitelemoteurMPPdel'ETL
Exploitedesserveursstandards
Exploitedesgrillesdeserveurs
Permetdestransformationscomplexes(data
cleansing)
LibèrelesressourcesdesBDD
Travaillesurdessourcesdedonnéeshétérogènes
(nonstockéesdansdesBDD)
LemoteurETLestplusrapidesurcertains
processusdetransformation
Inconvénients:
LemoteurETLestmoinsperformantsurcertains
processus(donnéesstockéesdansdesbases
relationnelles)
Peunécessitédelaressourcesupplémentaire
Design Job Once
DansHadoopavecousans
MapReduce
Avantages:
ExploitelemoteurMPPMapReduce
Exploitedesserveursstandards
LibèrelesressourcesdesBDD
Supporteletraitementdesdonnéesnon
structurées
Exploitelespossibilitéd'Hadooppourla
persistancedesdonnées (update et indexation
)
Coûtréduitpourl'archivageetl'historisation
Inconvénients:
Toutelalogiqued'unETLnepeutêtre
reproduiteautraversdesBDD(nécessite
l'utilisationd'unoutild'ETLouderequêtesSQL
codéesàlamain)
Peunécessiterdelaprogrammationcomplexe
MapReduceestgénéralementmoinsrapide
qu'unmoteurdeBDDparalléliséouunETLen
cluster
Hadoopestunejeunetechnologieparencore
arrivéeàmaturité
Run and scale anywhere

Les acteurs embarqués dans le Data Reservoir
Governor; appoint an individual to coordinate the definition of policies related to information governance and their
implementation.
Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an
information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in
information quality processes such as the exception management process.
Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information
supply chain.
Integration Developer; maintaining the data movement functionality in, around and out of the data lake.
Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems that
support the information supply chain.
10001
01011
01101
Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand
patterns of success.
Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be
improved, and define new procedures, rules, and requirements for the IT systems.
Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable
for ensuring it is capable of supporting the organization’s activities.
Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and
compare it with agreed processes.
Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user
interfaces and access rights to provide these individuals access to the information supply chain through the information
processes.

IBM Data lake

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à IBM Data lake

Similaire à IBM Data lake (20)

Plus de IBMInfoSphereUGFR

Plus de IBMInfoSphereUGFR (11)

IBM Data lake