SlideShare une entreprise Scribd logo
Christophe Bertin Avant-Vente IBM MDM 
Christophe.bertin@fr.ibm.com +33 676756751 
La Gouvernance : clé pour le succès des initiatives 
Analytics
Les données font la richesse métier de demain 
“We will look 
back on this 
time and look at 
data as a 
natural 
resource that 
powered the 
21st century” 
Ginni Rommety 
IBM CEO 
February 2014
80% des données 
existantes sont des 
données non 
structurées
80% des données 
existantes sont des 
données non 
structurées 
h 
12% des données 
sont utilisées
80% des données 
existantes sont des 
données non 
structurées 
h 
12% des données 
sont utilisées 
h 
20% de ces 
données sont 
considérées 
comme fiables
Une nouvelle façon de gérer “BIG DATA” des données avec le 
Touttypededonnées 
Beaucoupdevolume 
Desinformationsprécieusesmaisdifficilesàextraire 
Souventtrèssensiblesautemps
Quels sont les apports d'une plate-forme Big Data? 
Analyser	des	informations	variées 
Intégrerdansdenouvellesanalysesdesinformationsquine 
l'étaientpasavant 
Analyser	des	informations	en	mouvement 
Utiliserlestreamingdanslesanalyses 
Lancerdesanalysessurdesdonnéesenmouvement 
Analyser	de	fort	volume	d'information 
Lancerdesanalysessurdesvolumesgigantesques 
d'informationenréduisantlecoûtdeceprocessus 
Géreretanalyserdefortsvolumesdedonnéesstructuréeset 
relationnelles 
Découvrir	et		Expérimenter 
Utiliserl'analyseAd$hoc,larecherchedanslesdonnées 
existantesetl'expérimentation 
Gérer		Planifier 
Identifierlastructuredesdonnées,l'intégrité 
etlecontrôlepourassurerlacohérencedes 
requêtesrépétitives
L'apport de IBM avec InfoSphere BigInsights 
 Scalable 
• De nouveaux noeuds peuvent être 
ajoutés au fil de l'eau 
 Abordable	 
• Traitement massivement parallèle 
sur des serveurs standards 
 Flexible 
• Hadoop ne nécessite pas de schéma 
de données et peut donc stocker tout 
type de données 
 Tolérant	à	la	panne 
• A l'aide d'un framework de traitement 
parallèle MapReduce 
+ IBM	Innovation 
 Performance		fiabilité 
• Adaptive MapReduce, Compression, 
BigIndex, Scheduler flexible 
 Accélérateurs	pour	l'analytique 
 Accélérateurs	pour	la	productivité 
• Écran de gestion Web 
• Outils de gestion évolués 
• Écran de visualisation métier 
 Intégration	dans	l'Enterprise 
• Pour étendre et enrichir la chaine 
d'information
Les nouveaux scénarios métiers qui émergent 
Les experts métiers veulent un accès souple aux informations générées par leurs organisations 
au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant 
leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par 
exemple : 
Les Data Scientists recherchent des données pour 
identifier de nouveaux modèles analytiques 
Les Marketeurs recherchent des données pour de 
nouvelles campagnes 
Les Gestionnaires de Fraude recherchent des 
données pour mieux comprendre les activités 
suspectes 
• Activité au jour le jour. 
• Donner un accès spécifique sur une 
grande variété de sources d'information 
• Améliorer les analyses et les prises de 
décision 
• Utiliser les terminologies métiers. 
Mettre à disposition un tableur capable 
d'évoluer à grands volumes, avec une 
grande variété de types d'informations 
tout en protégeant les informations 
sensibles et en optimisant le stockage et 
l'alimentation des données. 
Mettre à disposition un tableur capable 
d'évoluer à grands volumes, avec une 
grande variété de types d'informations 
tout en protégeant les informations 
sensibles et en optimisant le stockage et 
l'alimentation des données.
Data Lake 
La mise en place du concept du Data Lake 
Les utilisateurs métiers veulent 
➢ Des outils d'analyse et de visualisation plus puissants 
➢ Un accès ouvert à plus d'informations 
L'équipe IT s'inquiète 
➢ des coûts induits 
➢ De la gouvernance et des exigences réglementaires 
Undatalake,paroppositionàundatawarehouse,contientun 
ensemblededonnéesnonstructuréesoumulti$structuréesquipour 
laplupartnon	pas	encore	été	reconnues	comme	données	de	 
valeurpourl'entrepriseetquisontstockéessousune	forme	brute. 
Al'opposédesdonnéesdudatawarehousequisontcensésavoirété 
nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications 
spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten 
attente	d'application	ou	d'analysepourdécouvrirleurvaleur. 
Undatalake,paroppositionàundatawarehouse,contientun 
ensemblededonnéesnonstructuréesoumulti$structuréesquipour 
laplupartnon	pas	encore	été	reconnues	comme	données	de	 
valeurpourl'entrepriseetquisontstockéessousune	forme	brute. 
Al'opposédesdonnéesdudatawarehousequisontcensésavoirété 
nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications 
spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten 
attente	d'application	ou	d'analysepourdécouvrirleurvaleur.
La notion de Data Réservoir 
 Un Data reservoir est un data lake qui met à 
disposition de l'information à une 
organisation pour permettre la mise en 
place de plusieurs typologie d'analyse : 
• Découverte et exploration des données 
• Analyses complexes pour la prise de décision 
• Reporting 
• Analyse temps réel 
 Il est possible de déclencher de nouvelles 
analyses depuis les données du Data 
Reservoir pour créer de nouvelles valeurs 
métier. 
 Un data reservoir met en place la notion de 
référentiel d'information partagées. 
 Chaque Référentiel du Data Reservoir est 
optimisé pour un certain type de 
traitement. 
• Analyses en temps réel, d'analyse complexe 
(comme le data mining), les analyses 
exploratoires, OLAP, reporting, ... 
Data Reservoir Services 
Data Reservoir Repositories 
Information Management and Governance Fabric 
Data Reservoir 
 Les données de valeur peuvent être 
répliquées dans plusieurs référentiels du data 
reservoir. Cependant, le data reservoir doit 
s'assurer que cette données copiée ou 
modifiée est correctement gérée et 
gouvernée . 
 L'information contenue dans le data reservoir 
doit être rendue accessible via différents 
types d'interfaces ) travers des Data 
Reservoir Services.
Schéma logique du Data reservoir 
Line of Business 
Applications 
Decision Model 
Management 
Governance, Risk and 
Compliance Team 
Simple, 
Ad Hoc 
Discovery 
and 
Analytics 
Reporting 
E v ents to 
E v a lua te 
Informa tion 
S erv ic e C a lls 
D ata Feed 
Out 
D a ta Feed 
In 
Unders tand 
Informa tion 
S ourc es 
S ea rch 
Reques ts 
Informa tion 
S erv ic e C a lls 
Information 
Curator 
Unders tand 
Informa tion 
S ourc es 
D eploy 
D ec is ion 
Models 
Unders tand 
C omplianc e 
Report 
C omplianc e 
Informa tion 
S erv ic e C a lls 
D a ta 
E x port 
Adv ertis e 
Informa tion 
S ourc e 
Informa tion 
Federa tion 
C a lls 
D eploy 
Rea l-time 
D ec is ion 
Models 
D eploy 
Rea l-time 
D ec is io 
n 
Models 
Mobile and other 
Channels 
Support 
Services 
Other 
Data ROestheervroirs 
Data Lakes 
Inter-la ke 
E x chang e 
Data Reservoir Operations 
C ura tion 
Intera c tion 
Mana g ement 
Notif ic a tions 
D a ta 
Import 
Enterprise IT 
System of Record 
Applications 
Front Office 
Applications 
Back Office 
Applications 
Enter prise Service Bus 
New Sources 
Third Party Feeds 
Third Party Services 
Internal Sources 
10001 
01011 
01101 
Data Reservoir
La problématique de la gouvernance de l'information 
 Au moment de la collecte : 
• Peut-on préserver la validité de 
l'information? 
• Sait-on identifier ce que l'on collecte? 
• Peut-on identifier l'information dont 
on aura besoin? 
 Comment peut-on introduire de la 
confiance dans le Data Lake? 
• Connait-on vraiment l'usage des 
données? 
 Ne crée-t-on pas un marais?
Schéma logique du Data reservoir 
Line of Business 
Applications 
Decision Model 
Management 
Governance, Risk and 
Compliance Team 
Simple, 
Ad Hoc 
Discovery 
and 
Analytics 
Reporting 
E v ents to 
E v a lua te 
Informa tion 
S erv ic e C a lls 
D ata Feed 
Out 
D a ta Feed 
In 
Unders tand 
Informa tion 
S ourc es 
S ea rch 
Reques ts 
Informa tion 
S erv ic e C a lls 
Information 
Curator 
Unders tand 
Informa tion 
S ourc es 
D eploy 
D ec is ion 
Models 
Unders tand 
C omplianc e 
Report 
C omplianc e 
Informa tion 
S erv ic e C a lls 
D a ta 
E x port 
Adv ertis e 
Informa tion 
S ourc e 
Informa tion 
Federa tion 
C a lls 
D eploy 
Rea l-time 
D ec is ion 
Models 
D eploy 
Rea l-time 
D ec is io 
n 
Models 
Mobile and other 
Channels 
Support 
Services 
Other 
Data ROestheervroirs 
Data Lakes 
Inter-la ke 
E x chang e 
Data Reservoir Operations 
C ura tion 
Intera c tion 
Mana g ement 
Notif ic a tions 
D a ta 
Import 
Enterprise IT 
System of Record 
Applications 
Front Office 
Applications 
Back Office 
Applications 
E nterprise Service Bus 
New Sources 
Third Party Feeds 
Third Party Services 
Internal Sources 
10001 
01011 
01101 
Data Reservoir 
Data Reservoir 
Report 
Queries 
Catalog 
Interfaces 
Raw Data 
Interaction 
Data 
Refineries 
View-based 
Interactio 
n 
Information Integration  Governance 
D a ta 
E x port 
D ata 
Import 
Data Reservoir 
Repositories
L'intégration des données est une opération succès d'un projet Hadoop critique dans le 
Extract, Transform, and Load Big Data With Apache Hadoop - White Paper 
https://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop. 
pdf 
“Pour la 
plupart 
des 
comptes 
80% de l'effort de développement 
d'un grand projet de 
données va dans 
l'intégration de données 
Va vers l'analyse des 
données.” 
…et 
seulement 20% 
La plupart des 
initiatives Hadoop 
impliquent la 
collecte, le 
déplacement, la 
transformation, le 
nettoyage, 
l'intégration, 
l'exploration et 
l'analyse d'un 
volume important 
de sources et des 
types de données 
disparates.
Que mettre en oeuvre pour résoudre d'intégration ? ce problème 
Hadoop n'est pas une 
plate-forme 
d'intégration de 
données, 80% des 
travaux concernent 
l'intégration pour lequel 
MapReduce est lent 
Les facteurs clés de succès d'un projet 
d'intégration dans le big data 
Pour passer en production, 
vous avez besoin de vous 
assurer d'avoir pris en 
compte tous les besoins 
d'intégration : Le codage 
manuel ne permet pas 
d'atteindre l'objectif de 
scalabilité, flexibilité, ou de 
performance 
L'ELT seul n'est pas suffisant 
pour répondre à la plupart 
des exigences d’intégration, 
parce que vous ne pouvez 
pas pousser toute la logique 
de l'intégration de données 
dans l'entrepôt de données 
ou dans Hadoop
Nous avons adapté notre catalogue gouvernance de l'information au pér idmeè gtrees dtiuo nB dige Dlaa ta
IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sûre pour s'intégrer 
 Adaptable 
Estcapabledepanacher	son	 
approche	d'intégrationenutilisant 
lescapacitésnativesd'ETL,d'ELT 
ainsiquedéployerdesjobsdans 
Hadoop 
 Dynamique	et	extensible 
Gagne	instantanémentdela 
performancedèsqu'uneressource 
matériellesupplémentaireluiest 
allouée 
 Partitionnement	des	données 
Envraigestionparallèle(comme 
Hadoop),ladonnéeestmaintenue 
dansl'outild'intégrationetstockéeen 
parallèlepourpermettrelascalabilité 
 Intégration	Hadoop 
Pousseztoutoupartieduprocessus 
versHadooppourprofiterdeson 
évolutivitéenmodeELT. 
SSoouurrccee 
DDaattaa 
SSoouurrccee 
DDaattaa 
Sequential 
DDiisskk 
CCPPUU 
MMeemmoorryy 
TTrraannssffoorrmm CClleeaannssee EEnnrriicchh 
EEEEDDDDWWWW 
4-way Parallel 64-way Parallel 
DDisiskk 
CCPPUU CCPPUU 
CCPPUU CCPPUU 
Shared 
Memory 
Shared 
Memory 
Uniprocessor SMP System MPP Clustered System
Comprendre …donner du co Cntoelxlateb oerte dre la pertinence aux informations du data lake 
Shop for Data 
Permet à tout 
utilisateur de 
trouver des sources 
de données 
contextualisées et 
d'explorer les 
détails pour 
identifier les 
données les plus 
pertinentes 
Smart Hover 
Voir 
instantanément un 
sommaire 
d'information sur 
les données 
Collect  Share 
Organiser les 
données en 
«collections», y 
ajouter du 
contexte, et les 
partager avec 
d'autres utilisateurs 
Lineage@Scale 
Nouvel outil de 
linéage graphique 
pour rendre les flux 
d'entreprise plus 
opérationnels et 
lisibles 
Réduction de la complexité 
Réduction de la complexité 
Meilleure supervision 
Meilleure supervision 
Agilité 
Agilité 
Compréhension 
Compréhension 
Information 
Governance 
Catalog
IBMInfosphere, les clefs de la construction d'un Data Reservoir 
Information 
Integration  
Governance 
Information 
Broker 
S ta g ing Are a s Monitor Work f ol w 
Operational 
Governance 
Hub 
Code 
Hub 
 Le data reservoir a besoin d'une gouvernance et d'une gestion du changement 
pour s'assurer que l'information est protégée et gérée de manière efficace. 
 La première étape dans la création du reservoir est d'établir les règles 
d'intégration et de gouvernance, de mettre en place les staging areas, le 
catalogue des métadonnées et une terminologie commune. 
 La construction s'opère ensuite de manière itérative : 
• Établissement de la gouvernance autour d'un sujet métier. 
• Mise en place de la gestion des sources d'information 
• Mise en place des vues métiers 
• Etablissement des premières analyses 
• Mise en place des règles de gestion opérationnelles
Exemple d'utilisation classique sur la gouvernance de notre approche 
● Etablir les principes de la 
gouvernance (rôles, 
règles, acteurs...) 
● Etablir le dictionnaire 
métier 
Information 
Governance 
Catalog 
● Travailler les métadonnées (Création, regroupement, classification, 
annotation et surtout lien avec le dictionnaire métier) 
● Lier les métadonnées et le dictionnaire aux différents jobs 
d'extraction
Les bénéfices courts et long termes apportés 
● Identifier des assets en utilisant une terminologie métier 
● Utiliser des requêtes pour localiser des sources d'information 
● Identifier des sources d'informations en utilisant des tags 
● Identifier des sources d'informations en utilisant des collections 
● Explorer et accéder rapidement à l'information 
Récupérer rapidement des données dans des 
sandbox en utilisant le dictionnaire métier 
pour identifier les sources d'information à 
utiliser
Pour aller plus loin 
dans la 
compréhension des 
informations 
Comment éviter la 
confusion et bien 
cerner le sens de 
l'information en 
travaillant la notion de 
contexte
Comment	redonner	du	sens	 
aux	données	à	forte	valeur	 
ajoutée	: 
Clients, Produits, Contrats, 
Assets, Employés, Partenaires, 
sous-traitants … 
Identifier	les	similitudes	à	 Connector	Framework 
l'aide	d'algorithmes	 
probabilistes	et	y	associer	des	 
données	de	contexte	: 
•Les flux web RSS 
•Les données sociales 
•Les CMS 
•Les documents non structurés 
•Emails / Conversations…
Annexe
Prochains Bootcamps 
● 7/10Octobre:DataQualityFund.Bootcamp 
– http://www$304.ibm.com/events/idr/idrevents/register.action? 
meid=16615ieid=11789 
● 3/7Novembre:DataGovernancewithInfoSphereInformationServer 
Bootcamp 
– http://www$304.ibm.com/events/idr/idrevents/register.action? 
meid=4614ieid=12019
Une overview de l'architecture de référence Big 
Data et Analytique 
http://www.redbooks.ibm.com/Redbooks.nsf/Redbook 
Abstracts/redp5012.html?Open
Détail des approches disponibles scalabilité de l'intégration dans du p Boiugr Dfaactailiter la 
DansuneBDD 
Avantages: 
 ExploitelemoteurMPPdelaBDD 
 Minimiseletransfertdedonnées 
 Utiliselacapacitédeliensetd'agrégation 
desBDD 
 Marchetrèsbienavecdesdonnées 
propres 
 LibèredelaressourceETL 
 Utiliseaumieuxlesressourcesdela 
BDD 
 LemoteurdeBDDestplusrapidesur 
certainsprocessus 
Inconvénients: 
 Matérieletstockagetrèscher 
 Peunécessité100%derecoursàl'ELT 
 DégradationdesSLAdesquery 
 Toutelalogiqued'unETLnepeutêtre 
reproduiteautraversdesBDD 
(nécessitel'utilisationd'unoutild'ETLou 
derequêtesSQLcodéesàlamain) 
 Nepeututiliserdesserveursstandards 
 Necessitedelaprogrammation 
 Estlimitépourlestransformations 
complexes 
 Estlimitépourlesopérationsde 
nettoyage 
 LemoteurdeBDDestmoinsperformant 
surcertainsprocessus 
 L'ELTpeutconsommerdesressources 
BDD(ilestdifficiledeplanifierl'allocation 
desressources) 
Endehorsd'uneBDD 
oud'Hadoop 
Avantages	: 
 ExploitelemoteurMPPdel'ETL 
 Exploitedesserveursstandards 
 Exploitedesgrillesdeserveurs 
 Permetdestransformationscomplexes(data 
cleansing) 
 LibèrelesressourcesdesBDD 
 Travaillesurdessourcesdedonnéeshétérogènes 
(nonstockéesdansdesBDD) 
 LemoteurETLestplusrapidesurcertains 
processusdetransformation 
Inconvénients: 
 LemoteurETLestmoinsperformantsurcertains 
processus(donnéesstockéesdansdesbases 
relationnelles) 
 Peunécessitédelaressourcesupplémentaire 
Design Job Once 
DansHadoopavecousans 
MapReduce 
Avantages: 
 ExploitelemoteurMPPMapReduce 
 Exploitedesserveursstandards 
 LibèrelesressourcesdesBDD 
 Supporteletraitementdesdonnéesnon 
structurées 
 Exploitelespossibilitéd'Hadooppourla 
persistancedesdonnées (update et indexation 
) 
 Coûtréduitpourl'archivageetl'historisation 
Inconvénients: 
 Toutelalogiqued'unETLnepeutêtre 
reproduiteautraversdesBDD(nécessite 
l'utilisationd'unoutild'ETLouderequêtesSQL 
codéesàlamain) 
 Peunécessiterdelaprogrammationcomplexe 
 MapReduceestgénéralementmoinsrapide 
qu'unmoteurdeBDDparalléliséouunETLen 
cluster 
 Hadoopestunejeunetechnologieparencore 
arrivéeàmaturité 
Run and scale anywhere
Les acteurs embarqués dans le Data Reservoir 
Governor; appoint an individual to coordinate the definition of policies related to information governance and their 
implementation. 
Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an 
information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in 
information quality processes such as the exception management process. 
Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information 
supply chain. 
Integration Developer; maintaining the data movement functionality in, around and out of the data lake. 
Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems that 
support the information supply chain. 
10001 
01011 
01101 
Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand 
patterns of success. 
Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be 
improved, and define new procedures, rules, and requirements for the IT systems. 
Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable 
for ensuring it is capable of supporting the organization’s activities. 
Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and 
compare it with agreed processes. 
Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user 
interfaces and access rights to provide these individuals access to the information supply chain through the information 
processes.

Contenu connexe

Tendances

Simplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data VirtualizationSimplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data Virtualization
Denodo
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
Mohamed Faïçal ESSALIFI
 
Découvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des donnéesDécouvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des données
Precisely
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Denodo
 
Tracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSTracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWS
Jean-Michel Franco
 
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Jean-Michel Franco
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Hélène Etienne
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinar
DataStax
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeur
Jean-Michel Franco
 
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
Mario-Charly TOBOSSOU
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
Jean-Michel Franco
 
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
Dataiku
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
Isabelle Van Campenhoudt
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
Jean-Michel Franco
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
Micropole Group
 

Tendances (20)

Simplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data VirtualizationSimplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data Virtualization
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Découvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des donnéesDécouvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des données
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Tracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSTracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWS
 
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinar
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeur
 
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
Coyote & Dataiku - Séminaire Dixit GFII du 13 04-2015
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 

En vedette

Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
leau pro
 
Vente De Chauffe-Eau Électrique Et D'un Réservoir Installé
Vente De Chauffe-Eau Électrique Et D'un Réservoir InstalléVente De Chauffe-Eau Électrique Et D'un Réservoir Installé
Vente De Chauffe-Eau Électrique Et D'un Réservoir Installé
leau pro
 
V3 3 irrigation-performances_jcp
V3 3 irrigation-performances_jcpV3 3 irrigation-performances_jcp
V3 3 irrigation-performances_jcp
International Water Management Institute (IWMI)
 
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
Allia_Salle_De_Bains
 
Hydropower Production Planning
Hydropower Production PlanningHydropower Production Planning
Hydropower Production Planning
DigitalxIndustry
 
Physical and Chemical Properties of Hydricarbons
Physical and Chemical Properties of HydricarbonsPhysical and Chemical Properties of Hydricarbons
Physical and Chemical Properties of Hydricarbons
Masoom Shani
 
cryogenic-nitrogen injection
cryogenic-nitrogen injectioncryogenic-nitrogen injection
cryogenic-nitrogen injection
abdullahusman81
 
Fundamental Reservoir Fluid Behaviour
Fundamental Reservoir Fluid BehaviourFundamental Reservoir Fluid Behaviour
Fundamental Reservoir Fluid Behaviour
M.T.H Group
 
Introduction to Petroleum Engineering
Introduction to Petroleum EngineeringIntroduction to Petroleum Engineering
Introduction to Petroleum Engineering
Amey Perry
 
Navette Discovery
Navette DiscoveryNavette Discovery
Navette Discovery
cedpictures
 
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
International Water Management Institute (IWMI)
 
Formation montage wc Prima 6
Formation montage wc Prima 6Formation montage wc Prima 6
Formation montage wc Prima 6
Allia_Salle_De_Bains
 
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
Nicolas JOUVE
 
Was Macht Den Mark Iv So Besonders
Was Macht Den Mark Iv So BesondersWas Macht Den Mark Iv So Besonders
Was Macht Den Mark Iv So Besonders
Ambu_Deutschland
 
Rawat inap super vip dan vvip
Rawat inap super vip dan vvipRawat inap super vip dan vvip
Rawat inap super vip dan vvip
ranaconsultant
 
Usos Del Gas
Usos Del GasUsos Del Gas
Usos Del Gas
ormelquev
 
Perencanaan r.rawat inap vip dan vvip1
Perencanaan r.rawat inap vip dan vvip1Perencanaan r.rawat inap vip dan vvip1
Perencanaan r.rawat inap vip dan vvip1
ranaconsultant
 
Cpiq upstream hydrocarbon industry final
Cpiq upstream hydrocarbon industry finalCpiq upstream hydrocarbon industry final
Cpiq upstream hydrocarbon industry final
Consejo Ingeniería Química
 
Les coulisses de_discovery_tres_rare_17_07_2009__
Les coulisses de_discovery_tres_rare_17_07_2009__Les coulisses de_discovery_tres_rare_17_07_2009__
Les coulisses de_discovery_tres_rare_17_07_2009__
denis
 
Petroleum and natural gas
Petroleum and natural gasPetroleum and natural gas
Petroleum and natural gas
Kandarp Vyas
 

En vedette (20)

Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
Faites tout votre chauffe eau répondent aux besoins les grands cabinets de mo...
 
Vente De Chauffe-Eau Électrique Et D'un Réservoir Installé
Vente De Chauffe-Eau Électrique Et D'un Réservoir InstalléVente De Chauffe-Eau Électrique Et D'un Réservoir Installé
Vente De Chauffe-Eau Électrique Et D'un Réservoir Installé
 
V3 3 irrigation-performances_jcp
V3 3 irrigation-performances_jcpV3 3 irrigation-performances_jcp
V3 3 irrigation-performances_jcp
 
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
Catalogue pièces détachées N1 : WC au sol et suspendus, réservoirs de chasse,...
 
Hydropower Production Planning
Hydropower Production PlanningHydropower Production Planning
Hydropower Production Planning
 
Physical and Chemical Properties of Hydricarbons
Physical and Chemical Properties of HydricarbonsPhysical and Chemical Properties of Hydricarbons
Physical and Chemical Properties of Hydricarbons
 
cryogenic-nitrogen injection
cryogenic-nitrogen injectioncryogenic-nitrogen injection
cryogenic-nitrogen injection
 
Fundamental Reservoir Fluid Behaviour
Fundamental Reservoir Fluid BehaviourFundamental Reservoir Fluid Behaviour
Fundamental Reservoir Fluid Behaviour
 
Introduction to Petroleum Engineering
Introduction to Petroleum EngineeringIntroduction to Petroleum Engineering
Introduction to Petroleum Engineering
 
Navette Discovery
Navette DiscoveryNavette Discovery
Navette Discovery
 
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
Performances d’aménagements irrigués depuis un petit réservoir: Cas de Boura ...
 
Formation montage wc Prima 6
Formation montage wc Prima 6Formation montage wc Prima 6
Formation montage wc Prima 6
 
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
Banc de dynamique des fluides, Automatismes Securite Pompe, Exercice AZprocede.
 
Was Macht Den Mark Iv So Besonders
Was Macht Den Mark Iv So BesondersWas Macht Den Mark Iv So Besonders
Was Macht Den Mark Iv So Besonders
 
Rawat inap super vip dan vvip
Rawat inap super vip dan vvipRawat inap super vip dan vvip
Rawat inap super vip dan vvip
 
Usos Del Gas
Usos Del GasUsos Del Gas
Usos Del Gas
 
Perencanaan r.rawat inap vip dan vvip1
Perencanaan r.rawat inap vip dan vvip1Perencanaan r.rawat inap vip dan vvip1
Perencanaan r.rawat inap vip dan vvip1
 
Cpiq upstream hydrocarbon industry final
Cpiq upstream hydrocarbon industry finalCpiq upstream hydrocarbon industry final
Cpiq upstream hydrocarbon industry final
 
Les coulisses de_discovery_tres_rare_17_07_2009__
Les coulisses de_discovery_tres_rare_17_07_2009__Les coulisses de_discovery_tres_rare_17_07_2009__
Les coulisses de_discovery_tres_rare_17_07_2009__
 
Petroleum and natural gas
Petroleum and natural gasPetroleum and natural gas
Petroleum and natural gas
 

Similaire à IBM Data lake

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
BigData selon IBM
BigData selon IBM BigData selon IBM
BigData selon IBM
Solutions IT et Business
 
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Zeenea
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
Excelerate Systems
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
Victor Coustenoble
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
Jean-Michel Franco
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
Converteo
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Youssef Loudiyi
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
Yann Gourvennec
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Excelerate Systems
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
dibs-conseil
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
TayssirLimem
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Denodo
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
IBM France Lab
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Altares D&B
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
Excelerate Systems
 
Le cloud, source de visibilité
Le cloud, source de visibilité Le cloud, source de visibilité
Le cloud, source de visibilité
PRODWARE
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
GroupeONEPOINT
 

Similaire à IBM Data lake (20)

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
BigData selon IBM
BigData selon IBM BigData selon IBM
BigData selon IBM
 
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
Le cloud, source de visibilité
Le cloud, source de visibilité Le cloud, source de visibilité
Le cloud, source de visibilité
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
 

Plus de IBMInfoSphereUGFR

IBM InfoSphere Stewardship Center for iis dqec
IBM InfoSphere Stewardship Center for iis dqecIBM InfoSphere Stewardship Center for iis dqec
IBM InfoSphere Stewardship Center for iis dqec
IBMInfoSphereUGFR
 
Ibm leads way with hadoop and spark 2015 may 15
Ibm leads way with hadoop and spark 2015 may 15Ibm leads way with hadoop and spark 2015 may 15
Ibm leads way with hadoop and spark 2015 may 15
IBMInfoSphereUGFR
 
Présentation IBM InfoSphere MDM 11.3
Présentation IBM InfoSphere MDM 11.3Présentation IBM InfoSphere MDM 11.3
Présentation IBM InfoSphere MDM 11.3
IBMInfoSphereUGFR
 
Présentation IBM InfoSphere Information Server 11.3
Présentation IBM InfoSphere Information Server 11.3Présentation IBM InfoSphere Information Server 11.3
Présentation IBM InfoSphere Information Server 11.3
IBMInfoSphereUGFR
 
IBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
IBM InfoSphere Data Architect 9.1 - Francis ArnaudièsIBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
IBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
IBMInfoSphereUGFR
 
IBM InfoSphere Data Replication Products
IBM InfoSphere Data Replication ProductsIBM InfoSphere Data Replication Products
IBM InfoSphere Data Replication Products
IBMInfoSphereUGFR
 
Présentation IBM DB2 Blu - Fabrizio DANUSSO
Présentation IBM DB2 Blu - Fabrizio DANUSSOPrésentation IBM DB2 Blu - Fabrizio DANUSSO
Présentation IBM DB2 Blu - Fabrizio DANUSSO
IBMInfoSphereUGFR
 
IBM InfoSphere MDM v11 Overview - Aomar BARIZ
IBM InfoSphere MDM v11 Overview - Aomar BARIZIBM InfoSphere MDM v11 Overview - Aomar BARIZ
IBM InfoSphere MDM v11 Overview - Aomar BARIZ
IBMInfoSphereUGFR
 
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUXInfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
IBMInfoSphereUGFR
 
InfoSphere streams_technical_overview_infospherusergroup
InfoSphere streams_technical_overview_infospherusergroupInfoSphere streams_technical_overview_infospherusergroup
InfoSphere streams_technical_overview_infospherusergroup
IBMInfoSphereUGFR
 
IBM MDM 10.1 What's New - Aomar Bariz
IBM MDM 10.1  What's New - Aomar BarizIBM MDM 10.1  What's New - Aomar Bariz
IBM MDM 10.1 What's New - Aomar Bariz
IBMInfoSphereUGFR
 

Plus de IBMInfoSphereUGFR (11)

IBM InfoSphere Stewardship Center for iis dqec
IBM InfoSphere Stewardship Center for iis dqecIBM InfoSphere Stewardship Center for iis dqec
IBM InfoSphere Stewardship Center for iis dqec
 
Ibm leads way with hadoop and spark 2015 may 15
Ibm leads way with hadoop and spark 2015 may 15Ibm leads way with hadoop and spark 2015 may 15
Ibm leads way with hadoop and spark 2015 may 15
 
Présentation IBM InfoSphere MDM 11.3
Présentation IBM InfoSphere MDM 11.3Présentation IBM InfoSphere MDM 11.3
Présentation IBM InfoSphere MDM 11.3
 
Présentation IBM InfoSphere Information Server 11.3
Présentation IBM InfoSphere Information Server 11.3Présentation IBM InfoSphere Information Server 11.3
Présentation IBM InfoSphere Information Server 11.3
 
IBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
IBM InfoSphere Data Architect 9.1 - Francis ArnaudièsIBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
IBM InfoSphere Data Architect 9.1 - Francis Arnaudiès
 
IBM InfoSphere Data Replication Products
IBM InfoSphere Data Replication ProductsIBM InfoSphere Data Replication Products
IBM InfoSphere Data Replication Products
 
Présentation IBM DB2 Blu - Fabrizio DANUSSO
Présentation IBM DB2 Blu - Fabrizio DANUSSOPrésentation IBM DB2 Blu - Fabrizio DANUSSO
Présentation IBM DB2 Blu - Fabrizio DANUSSO
 
IBM InfoSphere MDM v11 Overview - Aomar BARIZ
IBM InfoSphere MDM v11 Overview - Aomar BARIZIBM InfoSphere MDM v11 Overview - Aomar BARIZ
IBM InfoSphere MDM v11 Overview - Aomar BARIZ
 
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUXInfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
InfoSphere Streams Technical Overview - Use Cases Big Data - Jerome CHAILLOUX
 
InfoSphere streams_technical_overview_infospherusergroup
InfoSphere streams_technical_overview_infospherusergroupInfoSphere streams_technical_overview_infospherusergroup
InfoSphere streams_technical_overview_infospherusergroup
 
IBM MDM 10.1 What's New - Aomar Bariz
IBM MDM 10.1  What's New - Aomar BarizIBM MDM 10.1  What's New - Aomar Bariz
IBM MDM 10.1 What's New - Aomar Bariz
 

IBM Data lake

  • 1. Christophe Bertin Avant-Vente IBM MDM Christophe.bertin@fr.ibm.com +33 676756751 La Gouvernance : clé pour le succès des initiatives Analytics
  • 2. Les données font la richesse métier de demain “We will look back on this time and look at data as a natural resource that powered the 21st century” Ginni Rommety IBM CEO February 2014
  • 3. 80% des données existantes sont des données non structurées
  • 4. 80% des données existantes sont des données non structurées h 12% des données sont utilisées
  • 5. 80% des données existantes sont des données non structurées h 12% des données sont utilisées h 20% de ces données sont considérées comme fiables
  • 6. Une nouvelle façon de gérer “BIG DATA” des données avec le Touttypededonnées Beaucoupdevolume Desinformationsprécieusesmaisdifficilesàextraire Souventtrèssensiblesautemps
  • 7. Quels sont les apports d'une plate-forme Big Data? Analyser des informations variées Intégrerdansdenouvellesanalysesdesinformationsquine l'étaientpasavant Analyser des informations en mouvement Utiliserlestreamingdanslesanalyses Lancerdesanalysessurdesdonnéesenmouvement Analyser de fort volume d'information Lancerdesanalysessurdesvolumesgigantesques d'informationenréduisantlecoûtdeceprocessus Géreretanalyserdefortsvolumesdedonnéesstructuréeset relationnelles Découvrir et Expérimenter Utiliserl'analyseAd$hoc,larecherchedanslesdonnées existantesetl'expérimentation Gérer Planifier Identifierlastructuredesdonnées,l'intégrité etlecontrôlepourassurerlacohérencedes requêtesrépétitives
  • 8. L'apport de IBM avec InfoSphere BigInsights Scalable • De nouveaux noeuds peuvent être ajoutés au fil de l'eau Abordable • Traitement massivement parallèle sur des serveurs standards Flexible • Hadoop ne nécessite pas de schéma de données et peut donc stocker tout type de données Tolérant à la panne • A l'aide d'un framework de traitement parallèle MapReduce + IBM Innovation Performance fiabilité • Adaptive MapReduce, Compression, BigIndex, Scheduler flexible Accélérateurs pour l'analytique Accélérateurs pour la productivité • Écran de gestion Web • Outils de gestion évolués • Écran de visualisation métier Intégration dans l'Enterprise • Pour étendre et enrichir la chaine d'information
  • 9. Les nouveaux scénarios métiers qui émergent Les experts métiers veulent un accès souple aux informations générées par leurs organisations au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par exemple : Les Data Scientists recherchent des données pour identifier de nouveaux modèles analytiques Les Marketeurs recherchent des données pour de nouvelles campagnes Les Gestionnaires de Fraude recherchent des données pour mieux comprendre les activités suspectes • Activité au jour le jour. • Donner un accès spécifique sur une grande variété de sources d'information • Améliorer les analyses et les prises de décision • Utiliser les terminologies métiers. Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données. Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.
  • 10. Data Lake La mise en place du concept du Data Lake Les utilisateurs métiers veulent ➢ Des outils d'analyse et de visualisation plus puissants ➢ Un accès ouvert à plus d'informations L'équipe IT s'inquiète ➢ des coûts induits ➢ De la gouvernance et des exigences réglementaires Undatalake,paroppositionàundatawarehouse,contientun ensemblededonnéesnonstructuréesoumulti$structuréesquipour laplupartnon pas encore été reconnues comme données de valeurpourl'entrepriseetquisontstockéessousune forme brute. Al'opposédesdonnéesdudatawarehousequisontcensésavoirété nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten attente d'application ou d'analysepourdécouvrirleurvaleur. Undatalake,paroppositionàundatawarehouse,contientun ensemblededonnéesnonstructuréesoumulti$structuréesquipour laplupartnon pas encore été reconnues comme données de valeurpourl'entrepriseetquisontstockéessousune forme brute. Al'opposédesdonnéesdudatawarehousequisontcensésavoirété nettoyéesetconvertiesàdesfinsd'analyseoupourdesapplications spécifiques,lesdonnéesbrutesrésidantdanslesDataLakesonten attente d'application ou d'analysepourdécouvrirleurvaleur.
  • 11. La notion de Data Réservoir Un Data reservoir est un data lake qui met à disposition de l'information à une organisation pour permettre la mise en place de plusieurs typologie d'analyse : • Découverte et exploration des données • Analyses complexes pour la prise de décision • Reporting • Analyse temps réel Il est possible de déclencher de nouvelles analyses depuis les données du Data Reservoir pour créer de nouvelles valeurs métier. Un data reservoir met en place la notion de référentiel d'information partagées. Chaque Référentiel du Data Reservoir est optimisé pour un certain type de traitement. • Analyses en temps réel, d'analyse complexe (comme le data mining), les analyses exploratoires, OLAP, reporting, ... Data Reservoir Services Data Reservoir Repositories Information Management and Governance Fabric Data Reservoir Les données de valeur peuvent être répliquées dans plusieurs référentiels du data reservoir. Cependant, le data reservoir doit s'assurer que cette données copiée ou modifiée est correctement gérée et gouvernée . L'information contenue dans le data reservoir doit être rendue accessible via différents types d'interfaces ) travers des Data Reservoir Services.
  • 12. Schéma logique du Data reservoir Line of Business Applications Decision Model Management Governance, Risk and Compliance Team Simple, Ad Hoc Discovery and Analytics Reporting E v ents to E v a lua te Informa tion S erv ic e C a lls D ata Feed Out D a ta Feed In Unders tand Informa tion S ourc es S ea rch Reques ts Informa tion S erv ic e C a lls Information Curator Unders tand Informa tion S ourc es D eploy D ec is ion Models Unders tand C omplianc e Report C omplianc e Informa tion S erv ic e C a lls D a ta E x port Adv ertis e Informa tion S ourc e Informa tion Federa tion C a lls D eploy Rea l-time D ec is ion Models D eploy Rea l-time D ec is io n Models Mobile and other Channels Support Services Other Data ROestheervroirs Data Lakes Inter-la ke E x chang e Data Reservoir Operations C ura tion Intera c tion Mana g ement Notif ic a tions D a ta Import Enterprise IT System of Record Applications Front Office Applications Back Office Applications Enter prise Service Bus New Sources Third Party Feeds Third Party Services Internal Sources 10001 01011 01101 Data Reservoir
  • 13. La problématique de la gouvernance de l'information Au moment de la collecte : • Peut-on préserver la validité de l'information? • Sait-on identifier ce que l'on collecte? • Peut-on identifier l'information dont on aura besoin? Comment peut-on introduire de la confiance dans le Data Lake? • Connait-on vraiment l'usage des données? Ne crée-t-on pas un marais?
  • 14. Schéma logique du Data reservoir Line of Business Applications Decision Model Management Governance, Risk and Compliance Team Simple, Ad Hoc Discovery and Analytics Reporting E v ents to E v a lua te Informa tion S erv ic e C a lls D ata Feed Out D a ta Feed In Unders tand Informa tion S ourc es S ea rch Reques ts Informa tion S erv ic e C a lls Information Curator Unders tand Informa tion S ourc es D eploy D ec is ion Models Unders tand C omplianc e Report C omplianc e Informa tion S erv ic e C a lls D a ta E x port Adv ertis e Informa tion S ourc e Informa tion Federa tion C a lls D eploy Rea l-time D ec is ion Models D eploy Rea l-time D ec is io n Models Mobile and other Channels Support Services Other Data ROestheervroirs Data Lakes Inter-la ke E x chang e Data Reservoir Operations C ura tion Intera c tion Mana g ement Notif ic a tions D a ta Import Enterprise IT System of Record Applications Front Office Applications Back Office Applications E nterprise Service Bus New Sources Third Party Feeds Third Party Services Internal Sources 10001 01011 01101 Data Reservoir Data Reservoir Report Queries Catalog Interfaces Raw Data Interaction Data Refineries View-based Interactio n Information Integration Governance D a ta E x port D ata Import Data Reservoir Repositories
  • 15. L'intégration des données est une opération succès d'un projet Hadoop critique dans le Extract, Transform, and Load Big Data With Apache Hadoop - White Paper https://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop. pdf “Pour la plupart des comptes 80% de l'effort de développement d'un grand projet de données va dans l'intégration de données Va vers l'analyse des données.” …et seulement 20% La plupart des initiatives Hadoop impliquent la collecte, le déplacement, la transformation, le nettoyage, l'intégration, l'exploration et l'analyse d'un volume important de sources et des types de données disparates.
  • 16. Que mettre en oeuvre pour résoudre d'intégration ? ce problème Hadoop n'est pas une plate-forme d'intégration de données, 80% des travaux concernent l'intégration pour lequel MapReduce est lent Les facteurs clés de succès d'un projet d'intégration dans le big data Pour passer en production, vous avez besoin de vous assurer d'avoir pris en compte tous les besoins d'intégration : Le codage manuel ne permet pas d'atteindre l'objectif de scalabilité, flexibilité, ou de performance L'ELT seul n'est pas suffisant pour répondre à la plupart des exigences d’intégration, parce que vous ne pouvez pas pousser toute la logique de l'intégration de données dans l'entrepôt de données ou dans Hadoop
  • 17. Nous avons adapté notre catalogue gouvernance de l'information au pér idmeè gtrees dtiuo nB dige Dlaa ta
  • 18. IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sûre pour s'intégrer Adaptable Estcapabledepanacher son approche d'intégrationenutilisant lescapacitésnativesd'ETL,d'ELT ainsiquedéployerdesjobsdans Hadoop Dynamique et extensible Gagne instantanémentdela performancedèsqu'uneressource matériellesupplémentaireluiest allouée Partitionnement des données Envraigestionparallèle(comme Hadoop),ladonnéeestmaintenue dansl'outild'intégrationetstockéeen parallèlepourpermettrelascalabilité Intégration Hadoop Pousseztoutoupartieduprocessus versHadooppourprofiterdeson évolutivitéenmodeELT. SSoouurrccee DDaattaa SSoouurrccee DDaattaa Sequential DDiisskk CCPPUU MMeemmoorryy TTrraannssffoorrmm CClleeaannssee EEnnrriicchh EEEEDDDDWWWW 4-way Parallel 64-way Parallel DDisiskk CCPPUU CCPPUU CCPPUU CCPPUU Shared Memory Shared Memory Uniprocessor SMP System MPP Clustered System
  • 19. Comprendre …donner du co Cntoelxlateb oerte dre la pertinence aux informations du data lake Shop for Data Permet à tout utilisateur de trouver des sources de données contextualisées et d'explorer les détails pour identifier les données les plus pertinentes Smart Hover Voir instantanément un sommaire d'information sur les données Collect Share Organiser les données en «collections», y ajouter du contexte, et les partager avec d'autres utilisateurs Lineage@Scale Nouvel outil de linéage graphique pour rendre les flux d'entreprise plus opérationnels et lisibles Réduction de la complexité Réduction de la complexité Meilleure supervision Meilleure supervision Agilité Agilité Compréhension Compréhension Information Governance Catalog
  • 20. IBMInfosphere, les clefs de la construction d'un Data Reservoir Information Integration Governance Information Broker S ta g ing Are a s Monitor Work f ol w Operational Governance Hub Code Hub Le data reservoir a besoin d'une gouvernance et d'une gestion du changement pour s'assurer que l'information est protégée et gérée de manière efficace. La première étape dans la création du reservoir est d'établir les règles d'intégration et de gouvernance, de mettre en place les staging areas, le catalogue des métadonnées et une terminologie commune. La construction s'opère ensuite de manière itérative : • Établissement de la gouvernance autour d'un sujet métier. • Mise en place de la gestion des sources d'information • Mise en place des vues métiers • Etablissement des premières analyses • Mise en place des règles de gestion opérationnelles
  • 21. Exemple d'utilisation classique sur la gouvernance de notre approche ● Etablir les principes de la gouvernance (rôles, règles, acteurs...) ● Etablir le dictionnaire métier Information Governance Catalog ● Travailler les métadonnées (Création, regroupement, classification, annotation et surtout lien avec le dictionnaire métier) ● Lier les métadonnées et le dictionnaire aux différents jobs d'extraction
  • 22. Les bénéfices courts et long termes apportés ● Identifier des assets en utilisant une terminologie métier ● Utiliser des requêtes pour localiser des sources d'information ● Identifier des sources d'informations en utilisant des tags ● Identifier des sources d'informations en utilisant des collections ● Explorer et accéder rapidement à l'information Récupérer rapidement des données dans des sandbox en utilisant le dictionnaire métier pour identifier les sources d'information à utiliser
  • 23. Pour aller plus loin dans la compréhension des informations Comment éviter la confusion et bien cerner le sens de l'information en travaillant la notion de contexte
  • 24. Comment redonner du sens aux données à forte valeur ajoutée : Clients, Produits, Contrats, Assets, Employés, Partenaires, sous-traitants … Identifier les similitudes à Connector Framework l'aide d'algorithmes probabilistes et y associer des données de contexte : •Les flux web RSS •Les données sociales •Les CMS •Les documents non structurés •Emails / Conversations…
  • 26. Prochains Bootcamps ● 7/10Octobre:DataQualityFund.Bootcamp – http://www$304.ibm.com/events/idr/idrevents/register.action? meid=16615ieid=11789 ● 3/7Novembre:DataGovernancewithInfoSphereInformationServer Bootcamp – http://www$304.ibm.com/events/idr/idrevents/register.action? meid=4614ieid=12019
  • 27. Une overview de l'architecture de référence Big Data et Analytique http://www.redbooks.ibm.com/Redbooks.nsf/Redbook Abstracts/redp5012.html?Open
  • 28. Détail des approches disponibles scalabilité de l'intégration dans du p Boiugr Dfaactailiter la DansuneBDD Avantages: ExploitelemoteurMPPdelaBDD Minimiseletransfertdedonnées Utiliselacapacitédeliensetd'agrégation desBDD Marchetrèsbienavecdesdonnées propres LibèredelaressourceETL Utiliseaumieuxlesressourcesdela BDD LemoteurdeBDDestplusrapidesur certainsprocessus Inconvénients: Matérieletstockagetrèscher Peunécessité100%derecoursàl'ELT DégradationdesSLAdesquery Toutelalogiqued'unETLnepeutêtre reproduiteautraversdesBDD (nécessitel'utilisationd'unoutild'ETLou derequêtesSQLcodéesàlamain) Nepeututiliserdesserveursstandards Necessitedelaprogrammation Estlimitépourlestransformations complexes Estlimitépourlesopérationsde nettoyage LemoteurdeBDDestmoinsperformant surcertainsprocessus L'ELTpeutconsommerdesressources BDD(ilestdifficiledeplanifierl'allocation desressources) Endehorsd'uneBDD oud'Hadoop Avantages : ExploitelemoteurMPPdel'ETL Exploitedesserveursstandards Exploitedesgrillesdeserveurs Permetdestransformationscomplexes(data cleansing) LibèrelesressourcesdesBDD Travaillesurdessourcesdedonnéeshétérogènes (nonstockéesdansdesBDD) LemoteurETLestplusrapidesurcertains processusdetransformation Inconvénients: LemoteurETLestmoinsperformantsurcertains processus(donnéesstockéesdansdesbases relationnelles) Peunécessitédelaressourcesupplémentaire Design Job Once DansHadoopavecousans MapReduce Avantages: ExploitelemoteurMPPMapReduce Exploitedesserveursstandards LibèrelesressourcesdesBDD Supporteletraitementdesdonnéesnon structurées Exploitelespossibilitéd'Hadooppourla persistancedesdonnées (update et indexation ) Coûtréduitpourl'archivageetl'historisation Inconvénients: Toutelalogiqued'unETLnepeutêtre reproduiteautraversdesBDD(nécessite l'utilisationd'unoutild'ETLouderequêtesSQL codéesàlamain) Peunécessiterdelaprogrammationcomplexe MapReduceestgénéralementmoinsrapide qu'unmoteurdeBDDparalléliséouunETLen cluster Hadoopestunejeunetechnologieparencore arrivéeàmaturité Run and scale anywhere
  • 29. Les acteurs embarqués dans le Data Reservoir Governor; appoint an individual to coordinate the definition of policies related to information governance and their implementation. Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in information quality processes such as the exception management process. Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information supply chain. Integration Developer; maintaining the data movement functionality in, around and out of the data lake. Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems that support the information supply chain. 10001 01011 01101 Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand patterns of success. Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be improved, and define new procedures, rules, and requirements for the IT systems. Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable for ensuring it is capable of supporting the organization’s activities. Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and compare it with agreed processes. Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user interfaces and access rights to provide these individuals access to the information supply chain through the information processes.