La Data Virtualization au coeur de l’architecture “Data Mesh”

La Data Virtualization au
cœur de l’architecture
“Data Mesh”
WEBINAR
Emily Sergent
Ingénieure avant-vente | Denodo
esergent@denodo.com

AGENDA
1. Qu’est-ce qu’un data mesh ?
2. La DV et l’intégration de données logique
3. Comment la DV facilite la construction d’un
data mesh
4. Conclusion

Qu’est-ce qu’un data mesh ?

C’est quoi un data mesh ?
▪ Le data mesh est un nouveau paradigme architectural
pour la gestion des données
▪ Proposé par le consultant Zhamak Dehghani en 2019.
▪ Il permet de passer d'une infrastructure de données
centralisée gérée par une seule équipe à une organisation
distribuée de la donnée
▪ Plusieurs unités autonomes (domaines) sont chargées de
gérer et d'exposer leurs propres "produits de données" au
reste de l'organisation
▪ Les produits de données doivent pouvoir être découverts,
compris et accessibles facilement par le reste de
l'organisation

Quels défis relevés par le data mesh?
1. Manque d'expertise du domaine dans les équipes IT centralisées
▪ Déphasage/manque de connaissance des besoins
▪ La valeur métier peut être « lost in translation »
2. Manque de flexibilité des référentiels de données centralisés
▪ L'infrastructure de données des grandes organisations est
très diversifiée et change fréquemment
▪ Les besoins modernes en matière d’analytique peuvent
être trop diversifiés pour être satisfaits par une seule
plateforme : pas de « one size fits all »
3. Manque de vitesse et d’agilité
▪ Nécessite l'extraction, l'ingestion et la synchronisation des
données dans la plateforme centralisée
▪ L’IT devient un goulot d'étranglement

6
Comment ?
Les unités organisationnelles (domaines
métier) sont responsables de la gestion et de
l’exposition de leurs données
• Meilleure compréhension de la donnée
• Itérations courtes et moins nombreuses
• Autonomie d'utiliser les meilleurs outils
pour traiter leurs données, et de les
faire évoluer si nécessaire
L’intégration centrale devient ﬂexible,
légère
• Suppression des goulets
d'étranglement et accélération des
changements
• Son rôle est d’assurer la gouvernance
et l’interopérabilité, pas d’imposer une
implémentation technique

7
▪ Pour que les domaines ne deviennent pas
des silos de données isolés, les données
exposées doivent être :
▪ Faciles à découvrir
▪ Compréhensibles
▪ Auto-documentées
▪ Fiables
▪ Sécurisées
▪ Utilisables par d'autres domaines
(interopérables)
▪ Virtuels ou physiques
▪ Complexité cachée : Les processus et les
pipelines permettant de générer le produit
(par exemple, le nettoyage et la
déduplication) sont des détails de mise en
œuvre internes
▪ Réutilisation encouragée ! Les produits
peuvent servir à modéliser des nouveaux
produits dans un cercle vertueux
« Data as a Product »

Une plate-forme de données en libre-service
▪ La création, la sécurisation, le déploiement, le contrôle et la gestion d’une
plateforme peuvent être complexes
▪ Tous les domaines ne disposent pas des ressources nécessaires
à la mise en place de cette infrastructure
▪ Possibilité de duplication des eﬀorts entre les domaines
▪ Libre-service : mise en place centralisée par IT, création et gestion
déléguées aux domaines
▪ Capabilité d'automatiser/simpliﬁer :
▪ L'intégration et la transformation des données
▪ Les politiques de sécurité et la gestion des identités
▪ L'exposition des API de données
▪ La publication et la documentation dans un catalogue central

9
Gouvernance :
Les « produits de données » créés par les
différents domaines doivent interopérer afin de
répondre aux nouveaux besoins :
▪ Pour être joints, agrégés, corrélés, etc.
Cela nécessite un accord :
▪ Sur la sémantique des entités
communes (par exemple, client, produit),
▪ Sur les formats des types de champs
(par exemple, numéro d’identité,
identifiants d'entités, etc.),
▪ Sur l'adressabilité des API de données
Gouvernance et sécurité fédérées
Sécurité :
Gérée globalement et intégrée à votre
infrastructure de sécurité existante :
▪ La sécurité doit être appliquée à
l'échelle globale, conformément aux
réglementations et aux politiques
applicables
▪ Mais attention, les domaines gardent le
contrôle sur la sécurité de leurs données
aussi !

La DV et l’intégration de données logique

11
Les approches classiques d'intégration de
données point à point sont problématiques :
▪ L'extraction et le déplacement des données
augmentent la latence et le coût, et
diminuent la qualité
▪ Chaque projet résout la question de l'accès
aux données et de leur intégration d'une
manière diﬀérente
▪ Les solutions sont étroitement liées aux
sources de données, ce qui nuit à la ﬂexibilité
et à l'agilité
Un paysage de données distribuées SOURCES CLIENTS
Data
Governance
Tools
DB, DW &
Data Lakes
Files
BI Dashboard
Report and Tools
Data Science &
Machine Learning
Apps
Mobile &
Enterprise Apps
Microservices
Apps
Cloud DB
& SaaS
Streaming
Data & IoT
Cube

12
Denodo : Une plateforme unique d’intégration de la donnée
Un approche logique à l’intégration, la gestion et la livraison
SOURCES CLIENTS
PLATEFORMES TECHNIQUES
On-Premises | Cloud | Multi-Cloud | Containeurisées
Data
Governance
Tools
BI Dashboard
Report and Tools
Data Science &
Machine Learning
Apps
Mobile &
Enterprise Apps
Microservices
Apps
DB, DW &
Data Lakes
Files
Cloud DB
& SaaS
Streaming
Data & IoT
Cube
Advanced Semantics
& Active Data
Catalog
Uniﬁed Security &
Governance
Real-time Data
Integration
Smart Query
Acceleration
AI/ML Recommendations
& Automation
Logical Data
Abstraction

13
SOURCES CLIENTS
Data
Governance
Tools
BI Dashboard
Report and Tools
Data Science &
Machine Learning
Apps
Mobile &
Enterprise Apps
Microservices
Apps
DB, DW &
Data Lakes
Files
Cloud DB
& SaaS
Streaming
Data & IoT
Cube
Advanced Semantics
& Active Data
Catalog
Uniﬁed Security &
Governance
Real-time Data
Integration
Smart Query
Acceleration
AI/ML Recommendations
& Automation
Logical Data
Abstraction

14
SOURCES CLIENTS
Data
Governance
Tools
BI Dashboard
Report and Tools
Data Science &
Machine Learning
Apps
Mobile &
Enterprise Apps
Microservices
Apps
DB, DW &
Data Lakes
Files
Cloud DB
& SaaS
Streaming
Data & IoT
Cube
Vues
de
base
Intégration
&
couche
sémantique
Consommatio
n
API

15
Modélisation « Bottom Up »
SOUCES
Vues de base
Intégration & couche sémantique
Consommation
Sources de données

16
Modélisation « Top Down »
SOUCES
Consommation
Vues de base
Sources de données

17
Modélisation « Top Down »
SOUCES
Consommation
Vues de base
Sources de données
1. Partagées avec
l’organisation globale, ces
vues sont les « produits »
2. Gérées par les domaines,
ces vues sont
l’implémentation cachée et
protégée (mais flexible !)

18
Organisation en schémas virtuels
SOUCES
Consommation
Vues de base
Sources de données
1. Les vues sont organisées
dans des schémas virtuels
2. Le développement, le
cycle de vie et la gestion de
droits sont ainsi organisés
facilement
DOMAINE A
DOMAINE B

Comment la DV facilite la construction
d’un data mesh

20
Création simpliﬁée de « produits de données »
▪ Accès simple et rapide aux sources sous-jacentes
▪ Complexité technique prise en charge par l’outil
▪ Les équipes domaines peuvent se concentrer sur la
modélisation métier
▪ Développement « low code/no code »
▪ Modèle ﬂexible et facile à adapter
▪ Abstraction/découplage de l’implémentation de sa
façade
▪ Publication dans multiples formats et protocoles
standard
▪ SQL, REST, OData, GraphQL et MDX

Maintenir l’autonomie des domaines
▪ Les domaines ne sont pas contraints à migrer vers un
stockage de données unique
▪ Les applications ou entrepôts spéciﬁques peuvent
continuer à coexister
▪ Les plateformes centralisées peuvent cependant être
adoptées plus facilement
▪ Exemples : data lake corporate, datamart cloud…
▪ La complexité de la migration est occultée aux
utilisateurs ﬁnaux
▪ Les domaines peuvent évoluer ou tester de nouvelles
technologies

22
Découverte et documentation
▪ Catalogue de données qui permet de
découvrir, de comprendre et d'accéder
rapidement aux produits de données
▪ Génère automatiquement une
documentation des produits de données
dans un format ouvert
▪ Fonctionnalités de lineage, de détection
de changements, de traçabilité
Performance et ﬂexibilité
▪ Optimiseur automatique avec des
stratégies de performance appliquées en
fonction de la volumétrie et des capacités
de chaque système source
▪ Options de matérialisation ciblée
Approvisionnement
▪ Montée en charge automatique grâce à
l'aide des technologies de cloud/container
Mettre en place le libre-service

Faciliter la gouvernance fédérée
▪ La modélisation définie dans Denodo peut
apporter un cadre sémantique
▪ Modélisation « top-down » ou « contract-first »
▪ Sécurité unifiée, basée sur les rôles, simplifiée
par les tags transverses
▪ Règles de masquage flexibles, basées sur les types de
données
▪ Modélisation par couches successives permet la
gestion des socles data par les domaines et
facilite la réutilisation

24
La DV dans une implémentation Data Mesh
SQL
Operational EDW
Data Lakes Files
SaaS APIs
REST GraphQL OData
Event
Product
Customer Location Employee
1. Chaque domaine est doté
d'un schéma virtuel distinct.
Un domaine partagé peut
contenir les produits en
commun.
2. Les domaines
gèrent la connectivité
aux sources
3. La métadonnée est
mappée aux vues.
Aucune donnée n’est
répliquée (par défaut).
4. Les domaines modélisent
leurs produits. L’implémentation
technique est cachée au monde
extérieur.
5. Les données sont
remontées des sources à la
demande. Une
matérialisation ciblée peut
être configurée.
7. Produits mis à disposition
par SQL et par API sans l’
écriture de code
Common Domain Event Management Human Resources
6. Meilleurs pratiques
et cadre de partage
(protocoles,
authentification…)
gérées par l’IT
8. L’infrastructure peut
monter en charge

25
Cas d’usage : Grand fabricant de semi-conducteurs
▪ Initiative DaaS dans une grande organisation très
décentralisée
▪ Déploiement mature : 15 domaines, plus de 250 sources de
données
▪ Les unités opérationnelles (domaines) sont chargées de
gérer l'accès à leurs données
▪ L'équipe centrale déﬁnit les normes et les meilleures
pratiques, mais les unités opérationnelles créent et
possèdent leurs propres produits de données.
▪ Les produits de données sont créés en tant que modèles de
données virtuels exposés dans plusieurs technologies
d'accès : SQL, REST, OData,...

27
Conclusion
1. Le Data Mesh est un nouveau paradigme pour la gestion et l'analyse des données
▪ Il déplace les responsabilités vers les domaines et leurs produits de données
▪ Il s'agit de réduire les goulots d'étranglement, d'améliorer la vitesse d’accès aux données et
d’en garantir la qualité
2. Une plateforme de stockage monolithique – data lake ou entrepôt de données --
ne suffit pas à fournir tous les éléments nécessaires à cette évolution
3. Denodo offre une base solide pour mettre en œuvre ce nouveau paradigme
▪ Outils de modélisation graphique simples mais avancés pour définir de nouveaux produits
▪ Haute performance grâce à une connaissance des sources et des volumétries
▪ Gouvernance et contrôles de sécurité complets

28
Depuis 1999, spécialiste de l'intégration et la livraison de données
Denodo : Leader dans la gestion des données
DENODO DANS LE MONDE
Présence mondiale - 25 bureaux dans
20 pays ; plus de 500 employés
Nouveaux bureaux en 2021 - Pays-Bas,
Belgique, Suède, Corée du Sud
CLIENTS ET PARTENAIRES
Plus de 1000 clients dans tous les grands
secteurs d'activité
Plus de 300 partenaires actifs et engagés,
dans le monde entier
FINANCES
~50% de croissance annuelle
108% de rétention nette ; 4% de
désabonnement
0 $ de dette ; rentable
Leader: Gartner Magic Quadrant for
Data Integration Tools, 2021
Leader: Forrester 2020 Wave –
Enterprise Data Fabric, Q2 2020
Leader: Forrester 2017 Wave –
Data Virtualization, Q4 2017
LEADERSHIP
Customers’ Choice: 2022 Gartner Peer
Insights for Data Integration Tools
(2ème année consécutive)

29
Plus de 1000 clients, dont de nombreuses entreprises du Fortune 500 et du Global 2000
Clients de référence dans les principaux secteurs d'activité
Financial Services
Healthcare
Manufacturing
Insurance
Retail
Pharma / Biotech
Technology
Public Sector
Telecommunications
Energy

30
Prochaines étapes
Commencer à connecter vos propres sources de données avec la plateforme Denodo !
Denodo Express
• Version gratuite et allégée pour
une installation partout
• Téléchargeable ici
Evaluation
collaborative
Contactez-nous !
Denodo Standard
Free Trial
• 30 jours d’évaluation oﬀerts
• Accessible ici sur le fournisseur
cloud de votre choix

Merci !
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and
microfilm, without prior the written authorization from Denodo Technologies.

La Data Virtualization au coeur de l’architecture “Data Mesh”

Recommandé

Recommandé

Contenu connexe

Similaire à La Data Virtualization au coeur de l’architecture “Data Mesh”

Similaire à La Data Virtualization au coeur de l’architecture “Data Mesh” (20)

Plus de Denodo

Plus de Denodo (20)

La Data Virtualization au coeur de l’architecture “Data Mesh”