Les systèmes de gouvernance des données fournissent un cadre pour les politiques, les processus, les règles, les rôles et les responsabilités qui vous aident à gérer vos données. Une excellente stratégie de gouvernance des données, basée sur des outils comme le Collibra Data Governance Center (DGC), est essentielle pour tirer le meilleur parti de vos données.
Trillium Discovery s'intègre de façon transparente à Collibra pour créer une solution complète de gouvernance des données qui fournit des indicateurs sur la santé de vos données pour vous aider à mieux piloter votre organisation, tout en répondant aux contraintes règlementaires.
Participez à ce webinaire et découvrez comment vous pouvez tirer parti de cette intégration dans votre organisation pour construire, appliquer et exécuter facilement des règles de gestion basées sur les politiques de gouvernance des données au sein de Collibra.
2. Déroulé du webcast
Webcast Audio
La retransmission audio du jour est diffusée en continu sur les haut-parleurs de votre ordinateur.
Si vous avez besoin d'une assistance technique concernant l'interface web ou l'audio, veuillez
nous contacter en utilisant la fenêtre de discussion.
Questions
Soumettez vos questions à tout moment pendant la présentation en utilisant la fenêtre de chat.
Nous y répondrons lors de la session de questions-réponses qui suivra la présentation.
Enregistrement et slides
Ce webcast est en cours d'enregistrement. Vous recevrez un email à la suite de la diffusion sur le
web avec un lien pour télécharger l'enregistrement et les slides.
2
3. Intervenants
3
Stephane Heckel
Senior AccountManager, Precisely
• Plus de20 ans d’expérience enManagement de l’information, Qualité des données &
Intégration des données
• Aide les entreprises à devenirdata-driven
Eric Hubert
Consultant Solutions, Precisely
• Plus de20 ans d’expérience endata management
• Specialisé en Intégration des données, Qualité des données, Gouvernancedes données et
Master Data Management
4. Agenda
• Les enjeuxde la Data Gouvernance
• La relation entre Data Gouvernanceet Data Quality
• Precisely Trillium pour Collibra enaction
• Questions/Réponses
4
5. 5
• Le Volume etla complexité des données augmentent • Mai 2018• Janvier2020
• Conformité et réglementation plus
contraignantes
Les enjeux de la Data Gouvernance
6. La Gouvernance
des Données a
besoin de la
Qualité des
Données
Seulement 35% 92%
L'importancedelaqualité des donnéesdans
l'entreprise:
• Conformité
• Prise dedécision
• Centrésur le client
• Réputation de la marque
• Atténuation des risques
descadressupérieurs ontunniveau de
confianceélevé dansla précision deleurs
analysesdedonnées
KPMG 2016GlobalCEO Outlook
descadressontpréoccupésparl'impact
négatifdesdonnéeset desanalysessurla
réputationdesentreprises
KPMG 2017GlobalCEO Outlook
Seulement 2%Amendes RGPD en 2019: 27
428 545 407€
https://alpin.io/blog/gdpr-fines-list/
15 décembre2019
desentreprises seconsidèrentaujourd'hui
commepleinement conformesàl‘CCPA
InternationalAssociationofPrivacy Professionals,Octobre,2019
6
7. Prédictions Gartner 2020
• Due totherapidincreasein datasources,datatypesanddataconsumers,organizationsfacesignificant
challenges when identifying and inventorying distributed data
assets
• Data governance hasbeen indispensable fordatamanagementinitiatives,along withcontrollingthe
ever-growing amountof datain ordertoimprovebusinessoutcomes.Moreandmoreorganizationsrealizethatdata
governanceis a necessity;however,theylack experience in implementing
enterprisewidegovernanceprogramswithactual,tangible results
• Data quality is a successfactorforacceleratingbusiness innovationwith trusted data,while
alsomandatingto fulfillregulatoryrequirements toreduceoperationalrisk andincreaseefficiency
8. Terminologie & objectifs
Gouvernance des Données
• L'ensemble des politiques,
processus, règles, rôles et
responsabilités qui aident les
organisations à gérer les
données comme un actif de
l'entreprise
• Garantit la disponibilité, la
facilité d'utilisation,
l'intégrité, l'exactitude, la
conformité et la sécurité des
données en mettant des données
fiables entre les bonnes mains
• Fournir le data lineage pour
l'ensemble de l'organisation
• Rationalisation de la gestion
des données grâce à des
pratiques reproductibles
Qualité des données
• Les processus et les règles qui
contribuent à garantir que les
données sont « prêtes à
l'emploi" dans les contextes
opérationnels et décisionnels
prévus
• Couvre l'exactitude,
l'exhaustivité, la cohérence,
la pertinence, l'actualité et
la validité des données par:
• L’évaluation de l’état
actuel des données
• La mise en place de règles
pour la
correction/validation des
données actuelles/entrantes
• La fourniture de KPIs de
monitoring
8
10. Problèmes courants de Qualité de
Données
10
Erreurs communes Exemples
Contraintes d’Intégrité Age >= 18 AND Age <= 65
Échéance de paiement IN (‘30 jours’, ‘60 jours’,’90 jours’)
Date de début de Contrat <= Date de fin de Contrat
Caractères spéciaux ‘ »#{}()[]-`_@+=¤*%!/:.;?~ …
Diacritiques à - â - ä - é - è - ê - ë - ï - î - ô - ö - ù - û - ü - ÿ - ç….
Casse CASSE, Casse, casse
Data Pattern hétérogènes 10:55, 09:55:24 AM, 01/06/2020
Data Pattern incorrects No de passeport français <> 99AA99999
Validation des données Adresses Postales, Téléphones, Emails
Et tant d’autres ...
11. Complémentarité DG / DQ
Data Quality
Data Governance
Business
Glossary
Reference
Data
Workflow &
Policies
Data
Dictionary
Issue
Management
Business
Rules
Executio
n
Data
Quality
Metrics
Data
Profiling
Collibra
Precisely
12. Intégration DQ / DG
Gouvernance des Données
• Fournit les moyens d’obtenir une compréhension
commune des données disponible d’une organisation
organisation
• Aide les Métiers à définir
collaborativement des règles de
Gouvernance régissant le niveau dedisponibilité et qualité des
données attendu en fonction de cas d’usage
• Analyse les mesures pour comprendre les tendances, les
risques etles coûts
• Montre le Data Lineage pourrenforcer la confiance dans
les données et identifier les impacts en aval
Qualité des Données
• Établir le profil des données pour déterminer l'état actuel
de la qualité, la distribution des données, les relations entre les jeux de données
• Exprime les règles métiers dans une syntaxe technique valide
afin qu'elles puissent être évaluées par rapportauxdonnées réelles
• Mesurer la Qualité des données pour déterminer le respect
des règles et des seuils de l'entreprise sur une base continue
• Corriger les données pour les rendre utilisables et conformes aux
attentes des entreprises pour chaque cas d’usage
Collibra Precisely
12
13. Relation symbiotique entre DQ & DG
La Gouvernance des Données a besoin d'outils de qualité des données appropriés,
non seulement pour nettoyer les données brutes, mais aussi pour illustrer les
erreurs et les particularités, afin de Fiabiliser l’usage des données dans une
organisation et Contrôler la Qualité des Données dans le temps
La qualité des données nécessite des outils de Gouvernance des Données
appropriés pour garantir que les données sont nettoyées, conservées et
diffusées dans un Cadre Gouverné
DG DQRelevant Rules &
Policies
High Data Quality
13
14. 14
Business
Initiative:
Improve Cash
Optimization
Verify
Invoicing
Policy & Rules
Approve New
Rule
for
Implementation
Investigate &
Monitor
Stewardship
Judy Clark
John Fisher
Finance
Data
Steward
CFO
Business
Implement
New Rule
Mike Jones
Data
Quality
SME
Raise
Issues
Profile Data &
Verify Rule
Relation symbiotique entre DQ / DG
19. Workflow de remédiation de Collibra
19
Collibra
Trillium
DQ Rulesexec Exceptions
Notifications
20. Workflow Collibra de remédiation
d’erreurs
20
Les erreursdeQualité de Données peuvent être retournées à
Collibra et faire l’objet du déclenchement d’un Workflow de
remédiation impliquant les utilisateurs métiers
21. Trillium pour Collibra
Une proposition de valeur unique
21
Precisely Trillium Discovery
• La meilleuresolution dumarchéen matièrede gestion de la Qualité des Données
• TrouvezTOUSles problèmes de DQ
• Profiling etcompréhension de toutes les donnéesessentielles
• Connectivités natives et moded’exécution adapté à de fortes volumétries
Intégration prête àl'emploi del’évaluation DQ avecCollibra DGC
Seule solution bidirectionnelle
Automatisée et synchroniséeOOTB
Autonomie des utilisateurs vis-à-vis de l’IT
Configurable enfonction des besoins organisationnels pour tous les résultats de Profiling -support étendudes API
22. 22
Trillium pour Collibra
Une proposition de valeur unique
Retour d’expérience
• Mise enconformité réglementaire,un accélérateur?
• Uneopportunité pour les CDO
• Centrede compétence
• Self Service
• Par quoi commence t-on,DG ou DQ ?
La qualité et la gouvernance des données sont plus importantes que jamais! Voyons pourquoi...1. VOLUME ET COMPLEXITÉ. DOUBLEMENT DES DONNÉES TOUS LES 2 ANS - à l'instar de la loi Moore (Gordon Moore, fondateur de Fairchild Semiconductor/Intel) qui, en 1975, a prédit le doublement de la puissance des processeurs des ordinateurs tous les 2 ans. Selon certaines estimations, les données générées par les machines augmenteront 50 fois plus vite que la moyenne !
2. Parce qu'il existe des outils PLUS SOPHISTIQUES permettant aux analystes de disséquer leurs données, ce qui permet une segmentation et une compréhension plus précises. Et tous ces nouveaux drapeaux qu'ils créent ajoutent encore au volume et à la complexité des données. Mais si ces données sont erronées, toute cette compréhension sera faussée. Ce qui nous amène au troisième point 3. Il y a une grande DICHOTOMIE - Les attentes des gestionnaires de données en matière de données augmentent, mais la CONFIANCE dans les données diminue. 4. Enfin, et c'est peut-être le plus important, les propriétaires de données doivent maintenant se conformer à la réglementation, surtout que le PIBR sera disponible dans sept mois ! Et bien sûr, il n'y a pas que l'INDUSTRIE DES DONNÉES qui bat le rappel !
Prise de décision - Faites confiance aux données qui guident votre entrepriseCentré sur le client - Obtenez une vue unique, complète et précise de votre client pour améliorer les ventes, le marketing et le service clientConformité - Connaissez vos données et assurez-vous de leur exactitude afin de respecter les réglementations sectorielles et gouvernementalesMachine learning et IA - Des modèles de haute qualité nécessitent une formation sur des données précises et de haute qualité
Alors on parle de Qualité de Données. Avant de parler plus en détail de l’intégration que nous vous présentons aujourd’hui, J’aimerai rapidement revenir sur la définition de la Qualité De Données ou plus exactement sur celle que 2 chercheurs Yang et Strong ont proposé dans une publication dans le journal Management Information Systems en 1996. Vous voyez que le sujet n’est pas récent mais on a voit bien qu’il est encore plus d’actualité aujourd’hui, si l’on se réfère aux recommandations du Gartner. Ce « framework », ou « cadre », décrit de façon exhaustive, les dimensions qui caractérisent la Qualité des Données ainsi qu’une classification de ces dimensions.
Parmi elles, on peut citer celles liées à la Représentation des données, qui doit s’appuyer sur des STANDARDS voir des NORMES de représentation pour éviter les interprétations qu’on peut en faire.
On peut également citer la crédibilité, c’est-à-dire le caractère VRAI d’une l’information, – comme un numéro de téléphone -, qui nécessite des vérifications d’existence dans des sources externes.
Enfin, on peut souligner le caractère CONTEXTUEL des données, lorsque celles-ci doivent s’adapter à des cas d’usage spécifiques, et aussi faire l’objet de fiabilisation continue. Une information vraie à un instant T, pouvant devenir fausse, à un instant T+1.
La dimension d’accessibilité, est parfaitement couverte par la Data Gouvernance. Ce « Cadre », démontre bien que Qualité des Données et Data Gouvernance, sont étroitement liées.
Alors si on prend quelque exemples concrets des écueils que l’on rencontre communément, on peut citer des contraintes d’intégrité tel que :
Les CONTRAINTES d’entités, (Unicité, valeurs nulles) pour des clés primaires,
Les CONTRAINTES de DOMAINE, telles qu’un bornage de valeurs, ou leur présence dans une liste de valeurs autorisées,
Les dépendances FONCTIONNELLES intra tables,
Les CONTRAINTES référentielles, arithmétiques, ou TEMPORELLES.
Mais on peut citer également des problèmes qui peuvent être liés:
A la présence de caractères spéciaux,
A des caractères accentués ou casses différentes pour certaines données, qui peuvent impacter des rapprochements de ces données,
A des formats, – ou patterns -, non homogènes que l’on essaiera d’homogénéiser,
A des formats, – ou patterns –, incorrects, comme un code postal français sur 4 caractères, ou un Email avec des caractères non autorisés.
Enfin, des problèmes liés à la validation des données comme une adresse postale incorrecte, au sens inexistante dans les référentiels postaux, ou un numéro de téléphone non affecté.
Certaines de ces erreurs peuvent être éviter en mettant en place des règles de gestion au niveau des bases de données. Mais lorsqu’elle ne sont pas déclarées, ou lorsqu’on travaille sur des données provenant de fichiers ou d’applications qui ne les prennent pas en compte, une solution de gestion de la Qualité comme Trillium, pourra signaler et corriger la plupart d’entre elles.
Alors entre une Solution de Data Gouvernance et une solution de Data Quality QUI FAIT QUOI ? Et Quelle est la complémentarité de ces solutions ?Alors que la gouvernance des données se focalise sur la gestion de glossaires d’entreprise, des données de référence, des catalogues de données, de la gestion des erreurs, et la mise en place de règles de gouvernance et de workflow associés,
La Data Quality, elle, prend en charge les différents aspects que nous venons de voir, en:
Réalisant des diagnostics sur l’état des données AVANT et/ou Après d’éventuelles corrections,
Permettant de traduire les règles métiers de Data Gouvernance en expressions techniques,
Enfin en fournissant des métriques d’exécution, voire les erreurs de Qualité de Données identifiées.
Avec Collibra, l’ensemble de ces opérations sont pilotées directement depuis la solution.
Donc à chaque disciplines ses responsabilités.
Pour la Data Gouvernance, : celles de mettre à disposition des acteurs d’une organisation, les informations relatives à la disponibilité, le lineage et le niveau de qualité disponible pour chacun des assets.
Pour la Data Qualité, : celles de mesurer ce niveau de qualité, à partir des règles métier définies dans Collibra, voire de corriger ces erreurs.
Pour ce faire, Precisely Trillium, ne va pas se contenter de travailler sur des échantillons des données, mais bien se connecter aux différentes sources natives, qu’elles soient en architecture Big Data, dans des bases de données relationnelles, Applications, fichiers plat ou flux XML, et traiter la totalité des données accessibles.
Nous voyons bien qu’il existe une relation qu’on peut qualifier de SYMBIOTIQUE, entre les 2 solutions, qui permet à la fois pour la Data Gouvernance de s’appuyer sur des services d’évaluation et de correction qui n’y sont pas disponibles, et pour la Data Quality, finalement, d’offrir un cadre de Gouvernance global, de diffusion des informations fiabilisées au sein d’une organisation.
Par exemple, Collibra se chargera à travers son système de workflows collaboratif, de prévenir les bonnes personnes, que des erreurs de Qualité ont été identifiées, sur tel ou tel domaine de données.
On peut établir un parallèle avec un système de MAITRISE D’OUVRAGE, et un système de MAITRISE d’ŒUVRE, pour les aspect relatifs à la qualité des données.
Cette relation symbiotique, n’est possible que par une intégration bidirectionnelle entre les solutions qui va permettre …. [NEXT SLIDE]
… de chaîner les différentes logiques applicatives « sans COUTURE » ,comme on dit.
Nous allons voir cela en action juste après, mais on peut résumer tout simplement le fonctionnement avec ce schéma.
Imaginons une initiative au sein de l'organisation, par exemple, le Directeur Financier qui souhaite améliorer l'optimisation de la trésorerie.
Le Data Steward qui a accès à Collibra, peut définir une description fonctionnelle, mais pour cela, nous devons savoir si les données disponibles pour ce besoin précis, sont conformes aux règles métier définies.
Lorsque cette règle est créée dans Collibra, elle est déployée automatiquement dans les environnements Trillium. L'expert Data Quality en la matière, qui connaît le domaine, qui sait d'où proviennent les données, peut alors effectuer un profiling de ces données, vérifier la règle, la transcrire en terme techniques, et enfin l’exécuter.
Toutes ces nouvelles définitions, ainsi que le résultat, seront automatiquement renvoyé à Collibra pour enrichir les catalogues de données et le lineage.
Donc aucune perte d’information dans ce circuit grâce à un workflow global, intégré.
Cela peut être représenter par l’enchainement des interfaces web des deux solutions.
Création d’une règle métier dans Collibra, transfert de cette règle dans Trillium, traduction de la règle, exécution, et renvoi des résultats dans Collibra.
Evidemment le temps total d’exécution, dépend de la volumétrie des données à traiter.
Ce qu’il faut retenir, c’est que Trillium est capable de traiter les demandes en parallèle pour scanner des milliers de table.
Le fonctionnement étant asynchrone, des notifications de disponibilité des résultats pourront être définies dans Collibra.
Voyons maintenant le fonctionnement en action.
L’objectif de cette courte démonstration n’est pas de vous montrer toute les capacités de traitement de Trilium Discovery mais de nous focaliser uniquement sur l’intégration avec Collibra.
A partir d’un Dashboard Colibra, nous allons ici ouvrir une Communauté que nous avons créée et appelé « Precisely ».
On est ici sur une instance Cloud, de même que pour Trillium que l’on va voir dans une minute, mais sachez que cette intégration peut également fonctionner sur votre infrastructure.
Dans Trillium, aucune règle de définie dans mon catalogue de règle au départ. En revanche une connexion aux sources de données a déjà été créée et profilée. Ces informations de profiling seront renvoyées à Collibra dès qu’une demande d’exécution de règle sera initiée.
Collibra : On va créer ici un rule book qu’on va appeler « Données Clients »…
… Dans ce rule book, on va y créer de nouvelles règles métiers de DQ comme celle que vous voyez déjà definies à l’écran.
Par exemple cette nouvelle règle, qu’on va appeler “Validation de l’Age” , on va y associer une description fonctionnelle, éventuellement un prédicat qui sera automatiquement repris dans Trillium, et enfin un seuil qu'on va mettre ici à 100% c'est à dire sans tolérance d'erreur.
Une fois que cette règle est enregistrée on va changer son statut directement de Candidate à Acceptée, sans passer par un workflow de validation Collibra.
Si l’on bascule maintenant dans Trillium, on s’aperçoit que cette règle a été automatiquement propagée avec sa description et son seuil de tolérance.
Alors comme elle contient très peu d’informations, nous allons la compléter avant de la mettre en production et lui affectant une catégorie ou dimension de DQ, une expression technique définie à partir des attributs de la source de données.
Pas de langage programmation requis.
Une fois la syntaxe de la règle validée, on va la sauvegarder et lancer son execution manuellement.
Dès lors que la règle aura été définie, elle sera ensuite automatisée à la demande de Collibra.
Voilà, la règle exécutée on récupère la synthèse des résultats avec ici comme on peut le voir une expression qui génère près de 5% d’erreurs que l’on peut visualiser – on pourrait faire apparaitre d’autres attributs de la table.
Retour dans Collibra, ou l’on voit que la règle métier a été implémentée dans Trillium et à été exécutée pour générer des métriques.
Si l’on revient sur la definition de la règle on s’aperçoit que de nouveaux éléments ont été ajoutés tel que
le prédicat défini dans Trillium,
la classification d’erreur,
et l’URL de Trillium permettant d’ouvrir directement la règle.
Quant aux données d’exécution – qui seront historisées – elles nous donnent le nombre d’enregistrements traités, en succès et en echec.
Enfin de façon optionnelle, on peut accéder au enregistrements en erreur qui pourront faire l’objet d’un workflow Collibra de remediation.
Si on remonte au niveau de la table contenant l’attribut utilisé dans la règle, nous pourront accéder aux informations de Data Profiling avec de nombreuses informations utiles telles que....
Ce que l’on peut ensuite visualiser au niveau de la table, c’est un scorecard de qualité de données de synthèse, avec une courbe de tendance dans le temps pour voir si l’on observe des gains ou des pertes de qualité dans le temps.
Pour finir, le lineage avec les dimensions de qualité définies dans Trillium et leur score de dernière execution, pour chaque champs analysé, en l’occurrence ici nous n’avons qu’un seul champ.
see there's a quality score for this
You can also see a history over time and actually ran in a rule today
Un dernier mot sur les erreurs remontées par Trillium, je vous disais qu’elle peuvent faire l’objet d’un workflow de remédiation dans Collibra pour tenter de corriger ces erreurs – qui nécessitent dans ce cas une intervention humaine. Ces erreurs dès qu’elles arrivent elles vont pouvoir donc déclencher ces workflows automatiquement, avec dans cet exemple, une première notification email vers la personne en charge des actions de corrections nécessaires (Data Stewart ou Data Owner). Pour utiliser ces workflow on peut utiliser les modèles fournit dans Collibra… [NEXT SLIDE]
…Comme celui-ci et les adapter à votre organisation pour ce travail collaboratif.
Voila Stéphane pour cette aperçu de l’intégration de ces 2 solutions.