Watch full webinar here: https://bit.ly/3lnhMel
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée le 26 novembre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
Discovery Session France: Atelier découverte de la Data Virtualization
1. Atelier découverte de la virtualisation des données
Novembre 2020
Emily Sergent, Sales Engineer
2. Agenda
1. Généralités
2. Introduction à la Data Virtualization
3. Cas d’usage et études de cas clients
4. Gouvernance & sécurité
5. Performance
6. Démonstration avec le Denodo Test Drive
7. Prochaines étapes
8. Questions/Réponses
3. 3
Quelques généralités
• La présentation sera enregistrée
• Les échanges et les questions/réponses
• Avant la démonstration
• A la fin de la présentation
• N’hésitez pas à poser vos questions dans le chat au fil de
l’eau
• Pour accéder aux test drives :
• Se connecter à www.denodo.com
• Rubrique “Try Denodo Platform” puis “Denodo Test
Drives”
• Le Test Drive sur Azure n’est qu’un début : cas d’usage
Data Science et Data Marketplace sur AWS et GCP
4. Introduction à la Data Virtualization
Pourquoi la Data Virtualization? Défis, Solutions et Avantages
5. 5
Avant la virtualisation des données
Ventes
RH
Apps/API
COMEX
Marketing
Problèmes courants :
× Vues métiers décousues
× Gouvernance complexe
× Environnement de données fragmenté
× Trop de réplication de données
× Synchronisation longue et coûteuse
75% de la donnée stockée
n’est pas utilisée
90% des requêtes concernent
des données en temps réel
6. 6
Data Virtualization : Une plateforme de données moderne
POINT D’ENTRÉE UNIQUE POUR L’EXPLORATION ET LA
CONSOMMATION DE LA DONNÉE
ACCÈS EN LIBRE SERVICE POUR TOUS LES RÔLES AU
SEIN DE L’ORGANISATION
SÉCURITÉ & GOUVERNANCE RENFORCÉES
SIMPLE, AGILE, SÉCURISÉE AVEC UN ROI IMPORTANT
Plateforme moderne
d’accès à la donnée
Ventes
RH
COMEX
Marketing Apps/API
Data Science
AI/ML
7. 7
CONNECTER, COMBINER & CONSOMMER
Ventes
RH
COMEX
Marketing Apps/API
Data Science
AI/ML
Data Virtualization : Une plateforme de données moderne
Connecter
✓ Accès en temps réel à des sources de données variées
✓ Tirer parti de la puissance des technologies existantes
✓ Maîtriser la complexité des formats de stockage et des
protocoles d’accès
Combiner
✓ Construire des vues qui ciblent les besoins et cas d’usage métier
✓ Accès à la demande à travers un optimiseur de requêtes
✓ Gouvernance et sécurité appliquées de manière transparente
Consommer
✓ Accès SQL : JDBC, ODBC et ADO.NET
✓ Data Services : SOAP, REST, OData, GraphQL
✓ Libre service et exploration : Data catalog intégré
8. 8
L’architecture Denodo
DATA CATALOG
Découvrir - Explorer - Documenter
{ ACCÈS API }
RESTful / OData
GraphQL / GeoJSON
SQL
CONSOMMATEURS
VIRTUALISATION DES DONNEES
CONNECTIVITÉ
LOGICALDATAFABRICSOURCES
DWH/Bases de
données
relationnelles
150+
adaptateursStockage Cloud
Hadoop
& NoSQL OLAP Fichiers Apps Streaming SaaS
Optimisation
des requêtes
Sécurité
Intelligence
artificielle
Gouvernance
Couche
sémantique
Temps réél
Accélération
Caching
DATA OPS
Déploiement
Cloud PaaS
Container/K8
On-Prem/sur site
Surveillance
Ordonnancement
Gestion des versions
DÉVELOPPEMENT
MODÉLISATION
LIVRAISON
9. 9
L’architecture Logical Data Warehouse
“Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner April 2018
DATA VIRTUALIZATION
12. 12
Les cas d’usage de la Data Virtualization
DU STOCKAGE & MANAGEMENT, À LA CONSOMMATION, EN PASSANT PAR LA GOUVERNANCE ET LA SÉCURITÉ
DÉCISION
(REAL TIME)
K.Y.C.
(CLIENTS 360)
BI AGILE
(SELF-SERVICE)
DATA SCIENCE
(ML & AI)
APPS
(MOBILE & WEB)
FUSIONS &
ACQUISITIONS
DATA
MARKETPLACE
RÉGLEMENTATIONS
(IFRS17, GRC)
GOUVERNANCE
& SÉCURITÉ
APIFICATION
(& SQLIFICATION)
COUCHE DONNÉE
UNIFIÉE
AGILITÉ
& SIMPLICITÉ
LIVRAISON
TEMPS-RÉELLE
ABSTRACTION
DONNÉES
ZÉRO
RÉPLICATION
DATA
CATALOG
PERFORMANCES
OPTIMISÉES
LOGICAL DATA
WAREHOUSE/LAKE
BIG DATA
FABRIC
HYBRID
DATA FABRIC
DATA
INTEGRATION
DATA
MIGRATION
REFACTORING &
REPLATFORMING
DATA CONSUMPTION
DATA STORAGE & MANAGEMENT
DATA GOVERNANCE, MANIPULATION & ACCESS
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
API
13. 13
Les cas d’usage de la Data Virtualization
DU STOCKAGE & MANAGEMENT, À LA CONSOMMATION, EN PASSANT PAR LA GOUVERNANCE ET LA SÉCURITÉ
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
LOGICAL
DATA
WAREHOUSE
API
MIGRATION
MOVETO
THECLOUD
BIG
DATA
FABRIC
DATAGOVERNANCE
DATACATALOG
14. 14
Le Logical Data Lake en pratique
Logical Data Lake - une couche logique qui permet de faciliter l’accès et l’adoption
d’une plateforme Data Lake. Potentiellement composé de plusieurs Data Lakes
physiques distincts (Hadoop, Cloud…) ainsi que de données externes.
• Complémentaire d’un Data Lake
cloud ou physique
• Protocoles d’accès flexibles (SQL,
REST…)
• Contrôle d’accès centralisé,
flexible, et harmonisé
• Couche sémantique
indépendante, non liée à un outil
de visualisation particulier
• Productivité accrue pour les Data
Scientists : une seule connexion à
gérer ; des modèles de données
partageables et réutilisables
Logical Data
Warehouse/Lake
19. 19
Data APIs
Referential data
Legacy
DWH / BI
✓ Permettre la fédération des sources
disparates au sein d’une même vue
logique consistante et unique pour les
consommateurs
✓ Simplifier la consommation des
données via une couche de data service
« prêt à l’emploi »
✓ Limiter la réplication de données
inutiles et simplifie l’intégration
Logical view
Data
Services
(API / SQL)
DB cache
Applications Web
Mobile App
Applications
d’Entreprise
Tableau de bord
Témoignage novembre 2019
APIfication
(& SQLification)
20. 20
Vers le cloud et les architectures hybrides
Amazon RDS,
Aurora
EMEA AZ
Amazon RDS,
Aurora
États-Unis Est
EMEA
■ Les connexions Denodo-à-
Denodo permettent des
architectures multi-couches
■ Eviter le mouvement inutile
et coûteux des données
Scénarios de déploiement cloud
■ Accès unique quelque soit
l’emplacement, cloud ou
on-prem
Hybrid
Data Fabric
21. 21
Vers le cloud et les architectures hybrides
Le data warehouse d’origine était arrivé à capacité :
• Le coût estimé pour l’étendre de l’ordre de $M+
Logitech voulait une plateforme plus agile est moins
coûteuse :
• Migration vers AWS
• Redshift, Snowflake pour EDW, RDS pour les
données relationnelles, S3 pour l’ingestion
• Spark, EMR, NLP pour l’analytique
Data Virtualization comme couche d’accès
universelle
• Accès identique fourni quelque soit
l’emplacement ou la technologie sous-jacente
Hybrid
Data Fabric
23. 23
Leurs défis
• Données mondialement distribuées à travers des
outils et technologies hétérogènes
• Nouvelles sources de données (ex: big data) &
nouveaux consommateurs (ex: émergence du SaaS)
• Nouveaux canaux de communication (ex: mobile)
• Web Services et API Management
• Fusions et acquisitions
• Analystes en demande de données fraîches et
faciles d’accès
24. 24
Résultats
• Données mondialement distribuées à travers des
outils et technologies hétérogènes
• Nouvelles sources de données (ex: big data) &
nouveaux consommateurs (ex: émergence du SaaS)
• Nouveaux canaux de communication (ex: mobile)
• Web Services et API Management
• Fusions et acquisitions
• Analystes en demande de données fraîches et
faciles d’accès
26. 26
Gouvernance et virtualisation des données
• La virtualisation contribue à la
gouvernance générale des données en
apportant les capabilités suivantes :
✓ Gestion opérationnelle des metadonnées
✓ Audit de l’ensemble des données quelque
soit la typologie et la méthode d’accès
✓ Sécurité : contrôle d’accès en un point
unique
✓ Réduction des réplications
27. 27
Principes de sécurité
✓ Contrôle centralisé
▪ Autoriser l'accès en fonction des besoins de
l'entreprise, indépendamment de la
localisation des données ou de la méthode
d'accès
▪ Définir un contrôle d'accès fin sur toutes les
sources de données (fichiers, services web, ...)
▪ Configuration centralisée
✓ Intégré à votre environnement
▪ SSO, Kerberos
▪ Authentification locale ou LDAP
▪ Comptes de pass-though ou de service
nom pays téléphone SSN
John Smith USA 555-1212
Alain
Durand
France
Mary White USA 555-2212
Contrôler l'accès aux colonnes,
aux lignes ou même aux
valeurs individuelles
28. 28
Principes de sécurité
✓ Denodo gère la sécurité comme une DB :
▪ Dynamic Masking, restrictions sur
colonne et sur lignes selon les rôles &
les privilèges des utilisateurs
▪ Sécurité basée sur l’utilisation et non
sur le système de stockage
IT Semantic Layer
JOIN
GROUP
BY
GROUP
BY
1. Requête métier
2. Authentification avec
une corporate identity
3. Application des règles
d’autorisation :
Par exemple, masquer SSN
et certains numéros de tél
4. Requête envoyée à la
source avec les filtres de
conditions correspondants
5. Résultat sécurisé
est généré et envoyé
à l’utilisateur
DISPARATE DATA SOURCES Less StructuredMore Structured
DATA CONSUMERSDATA CONSUMERSAnalytical Operational
30. 30
Performances et optimisations dans Denodo
Pourquoi est-ce si important ?
✓ Les données sont externes
▪ Lorsqu’une requête est traitée par Denodo, les données sont
remontées depuis les sources
✓ Il y a deux niveaux de traitement
▪ Dans les sources de données
▪ Par le moteur Denodo
✓ Stratégie de Denodo : Maximiser le traitement à la source
▪ Minimiser le trafic réseau
▪ Tirer parti des capacités de traitement des sources
31. 31
Performances et optimisations dans Denodo
Axé sur 4 concepts de base
✓ Optimiseur de requête
✓ Optimisations MPP
✓ Cache
✓ Accélération intelligente pour l’analytique
32. 32
Et… l perform nce d ns tout ç ?
Combiner
Transformer
Livrer
Application
Source
RDBMS
Source
Big Data
Source
Web Service
Un volume de données important
est potentiellement transféré
2) Toutes les données
concernées sont remontées
des systèmes sources
Sans Data Virtualization…
1) L’utilis teur dem nde l donnée
à travers une application
3) Les données sont ensuite
combinées et transformées
directement d ns l’ pplic tion
et livrées à l’utilis teur
Tout le travail est
exclusivement
fait dans
l’application
33. 33
Et… l perform nce d ns tout ç ?
Combiner
Transformer
Livrer
Application
Source
RDBMS
Source
Big Data
Source
Web Service
Avec Data Virtualization 1) L’utilis teur dem nde l donnée
à travers une application. Denodo
analyse la requête et envoie des
requêtes ciblées aux sources
2) Le traitement des données à
la source est maximisé via
la délégation, selon leurs
capacités techniques
3) Les données sont ensuite
combinées et transformées
par Denodo, livrées à l’ pplic tion
et l’utilis teur
Le travail
est partagé par les
sources et par
Denodo
Le volume de données transféré
est nettement réduit
34. 34
La performance
SELECT c.state, AVG(s.amount)
FROM customer c JOIN sales s
ON c.id = s.customer_id
GROUP BY c.state
Ventes Client
JOIN
GROUP BY
Ventes Client
Table
temporaire
JOIN
GROUP BY
Option 1 Option 2 Option 3
Temp-Client
Les données « clients » et « ventes » sont
stockées dans différentes sources.
Quel est le meilleur plan d'exécution ?
Stratégie fédération simple
(outils BI)
Mouvement temporaire des données
(Si les sources le permettent)
300 M 2 M 2 M
50
Ventes Client
JOIN
GROUP BY
ID
GROUP BY
state
Délégation partielle d'agrégation
2 M
2 M
... juste un exemple parmi les
stratégies appliquées par Denodo
dans l'optimisation des requêtes
35. 35
La performance
SELECT c.state, AVG(s.amount)
FROM customer c JOIN sales s
ON c.id = s.customer_id
GROUP BY c.state
Fonctionnement de Denodo par rapport aux autres moteurs de la fédération
Système Temps d'exécution
Données
transférées
Technique d'optimisation
Denodo 9 sec. 4 M
La delegation de
l'agrégation
Autres 125 sec. 302 M Aucun : scan complet
300 M 2 M
Ventes Client
JOIN
GROUP BY
2 M
2 M
Ventes Client
JOIN
GROUP BY
ID
GROUP BY
state
Pour maximiser la délégation
au dataware, l'agrégation est
divisée en 2 étapes :
• 1ère par ID client
• 2ème par État
Cela a considérablement
réduit le trafic réseau et la
complexité de traitement
dans Denodo
39. Clients
800+ actifs
F500, G2000 & Start-ups
Santé financière
$4B+ Fond privé (HGGC).
60+% croissance annuelle; Zéro dette; Profitable.
Présence Denodo
Palo Alto (USA) & A Coruña (Espagne)
Présence mondiale
Leadership
A l’origine et « Pure Player » de la data
virtualization depuis 1999
Reconnaissance des analystes et du marché en
tant que leader (Forrester, Gartner, Clients depuis
6+ ans)
Nombreux prix
Denodo Technologies
Leader & Pionnier de la Data Virtualization
Technologie
Industrie
Service financier
Assurance
Santé
Secteur public
Télécommunication
Distribution
Pharma / Bio-Tech
Energie
40. Denodo Technologies
Leader & Pionnier de la Data Virtualization
Technology Partners
System Integrators & Solution Consultants
Clients
800+ actifs
F500, G2000 & Start-ups
Santé financière
$4B+ Fond privé (HGGC).
60+% croissance annuelle; Zéro dette; Profitable.
Présence Denodo
Palo Alto (USA) & A Coruña (Espagne)
Présence mondiale
Leadership
A l’origine et « Pure Player » de la data
virtualization depuis 1999
Reconnaissance des analystes et du marché en
tant que leader (Forrester, Gartner, Clients depuis
6+ ans)
Nombreux prix
41. 41
“Denodo provides its customers with the
necessary product capabilities for
automating the data fabric design with
its core platform components – a unified
semantic catalog, a dynamic query
optimization engine and runtime
metadata-based ML algorithms. Its data
fabric design relies on data virtualization
to provide integrated data quickly to
business users to effect faster outcomes.”
2020 Gartner Magic Quadrant for Data Integration Tools
Denodo nommé Leader
42. Denodo Technologies
Leader & Pionnier de la Data Virtualization
Clients
800+ actifs
F500, G2000 & Start-ups
Santé financière
$4B+ Fond privé (HGGC).
60+% croissance annuelle; Zéro dette; Profitable.
Présence Denodo
Palo Alto (USA) & A Coruña (Espagne)
Présence mondiale
AUTO ÉVALUATION
ÉVALUATION COLLABORATIVE
https://www.denodo.com/en/denodo-platform/test-drives
Contactez-nous !
Téléchargez
Denodo Express
Évaluez (1h) avec le
Test Drive:
Denodo Platform
for AWS, Azure ou
GCP
Leadership
A l’origine et « Pure Player » de la data
virtualization depuis 1999
Reconnaissance des analystes et du marché en
tant que leader (Forrester, Gartner, Clients depuis
6+ ans)
Nombreux prix