SlideShare une entreprise Scribd logo
1  sur  27
LaGestiondelaqualitédesdonnées
àl’èreduBigData
Eric Hubert
Consultant Solutions
Célia Lacroix
Account Manager
Déroulé du webcast
Webcast Audio
La retransmission audio du jour est diffusée en continu sur les haut-parleurs de votre ordinateur.
Si vous avez besoin d'une assistance technique concernant l'interface web ou l'audio, veuillez
nous contacter en utilisant la fenêtre de discussion.
Questions
Soumettez vos questions à tout moment pendant la présentation en utilisant la fenêtre de chat.
Nous y répondrons lors de la session de questions-réponses qui suivra la présentation.
Enregistrement et slides
Ce webcast est en cours d'enregistrement. Vous recevrez un email à la suite de la diffusion sur le
web avec un lien pour télécharger l'enregistrement et les slides.
2
Les Big Data
ont besoin
de la
Data Quality
Seulement
35% 92%
des cadres ont une grande
confiance dans l'exactitude de leurs
analyses de données
KPMG 2016 Global CEO Outlook
D’entre eux sont préoccupés par
l'impact négatif des données et des
analyses sur la réputation des
entreprises
KPMG 2017 Global CEO Outlook
80% 84%
des projets IA/ML sont bloqués en
raison de la mauvaise qualité des
données
Dimensional Research, 2019
des PDG sont préoccupés par la
qualité des données sur lesquelles
ils fondent leurs décisions
Le leader mondial en intégrité de données
Faites confiance à vos données. Construisez vos possibilités.
Nos logiciels d'intégrité de données et nos produits d'enrichissement de
données offrent la précision et la cohérence nécessaires pour prendre des
décisions en toute confiance.
Les marques auxquelles vous faites confiance, nous font confiances
Les partenaires Data Leaders s'associent à nous
du Fortune 100
90
Des clients dans plus de
100
2,000
employés
clients
12,000
pays
Connecter l'infrastructure
d'aujourd'hui avec la
technologie de demain pour
libérer le potentiel de toutes
vos données d'entreprise
Intégrer
Comprendre vos données et veiller à
ce qu'elles soient exactes,
cohérentes et complètes pour des
décisions commerciales en toute
confiance
Verifier
Analyser les données de localisation
pour obtenir des informations
commerciales améliorées et
exploitables qui permettent d'obtenir
des résultats supérieurs
Localiser
Un pouvoir décisionnel accru
grâce à des données sur les
entreprises, les lieux et les
consommateurs mises à jour
par des experts
Enrichir
Les 4 éléments de l'intégrité des données
D A T A I N T E G R I T Y
Digital
Transformation
Customer Data
Governance
CRM / Channel
Optimization
BI / Data Science
Governance
Risk Compliance
KYC / Financial Crimes &
Compliance GDPR
Fraud, Waste &
Abuse
Pourquoi gérer la qualité de vos données ?
Les défis de la gestion de la DQ
en environnement Big Data
CATALOGAGE ET PROFILING DES DONNÉES
• Les organisations stockent de grandes quantités de données hétérogènes dans des Data
Lakes et dans le Cloud – Certaines données ne sont pas utilisables en l’état si elles ne sont
pas comprises ou considérées comme peu fiables
DATA MATCHING
• Rapprocher tant de données nécessite des algorithmes de correspondance multi-critères
sophistiqués qui doivent être manipulés et compris facilement par les métiers pour ne pas
détruire de la valeur ou biaiser les rapprochements
PERFORMANCES
• Les outils traditionnels de Gestion de la qualité des données ne sont pas conçus pour
fonctionner à cette échelle
• Standardisation, Validation, Data Matching sur de telles volumétries demandent une
grande puissance de calcul – en particulier le rapprochement des données nécessitant
des approches itératives
Spectrum Data Quality
Intrinsèque
•Exactitude
•Cohérence
•Crédibilité
•Fiabilité des Sources
Représentation
•Interprétation
•Compréhension
•Intégrité
•Consistance
Contexte
•Pertinence
•Exhaustivité
•Complétude
•Fraicheur
•Durée de vie
Accessible
•Accessibilité
•Sécurisation
•Traçabilité
•Audit
The Data Quality
Framework
Data
Quality
« Beyond Accuracy:
What Data Quality Means
to Data Consumers »
Auteurs: Richard Y. Wang
et Diane M. Strong
Source: Journal of Management
Information Systems (1996)
http://mitiq.mit.edu/Documents/Publications/TDQMpub/14_Beyond_Accuracy.pdf
Illustration sur la Représentation des données
ID Nom Adresse Ville Code Postal Mobile Email Date naissance
C146 崴 毛 西山台6-20-4 589-0022 0617-555-000 hual@@yaho.com 28/10/1800
W123 Mme Durieux 8 rue Ruisseau Nanets 44100 0617555000 mdurieux@gmail.com 01/06/1970 09:55:24
R423 Durieux SR Conseil 8 10 rue Rousseau Faÿ-lès-Nemours 44 06175329550 prax@yahoo.com 01-06-1970
M979 Durieu - Prax 18 R de Courcelles & Paris 06175329550 10:00:00
WEB
Noms multiples
Mix de termes B2C/B2B
Adresse incorrecte
Typos
Doublons
Valeur manquante
Pas à la bonne
place
(Sémantique)
Formats non standard
Syntaxe et domaine invalides
Scripts non homogènes
Erreur de Caractère
Diacritiques
Pattern hétérogènes
Pattern incorrect
Contrainte d’intégrité
Non valide
Illustration sur la Durée de vie des données
11
4% par an
437 000
Mariages / Pacs en
2018
~11% de la population
déménage chaque année
173 000
Mariages / Dissolution
Pacs en 2017
3343
Communes nouvelles / Regroupées
depuis janvier 2015
742 000
Créations / Défaillance
d’entreprises en 2018
Spectrum Data Quality
12
Intégration /
Fédération
Découverte &
Catalogage
Glossaire
Métier
Capture de
règles
Métier
Processus
Data Quality
DQ KPIs
Monitoring
DQ
Lineage
Résolution
d’Exceptions
Profilage
Golden
Record
Persistance
des Données
Maîtres
1 2 3 4 5
Data
Matching
Gestion des meta Données
Business Glossary Data
Discovery
Modeling Profiling Lineage & Impact
Analysis
• Gestion
sémantique
• Permet une
cartographie, des
modèles, des
lignées et des
analyses d'impact
plus efficaces
• Recherche de
type Google
• Le marquage
simplifie la
collaboration.
• La classification
sémantique aide
à découvrir les
IIP.
• Outils de
modélisation
intégrés
• Visuel
• Fédérer les
données
• Soutien à une
planification et
une gouvernance
plus efficaces
• Évaluer
l'exhaustivité et
l'unicité.
• Identifier les
modèles
• Appliquer des
actions
suggestives
• Commenter et
collaborer
• Voir les liens vers
les sources de
données externes
• Obtenez un
aperçu du flux de
données dans
l'entreprise.
• Tracer l'utilisation
Définition des règles de mise en qualité
Les règles de DQ doivent être mise en œuvre dans un contexte
donné décrit dans le cadre de la politique de Gouvernance des
Données d’une Organisation
• Vérification de contraintes d’intégrité
• Translittération, encodage, cleansing de caractères
• Parsing, Standardisation et Validation des données
• Validation des noms propres (reconnaissance globale des
noms, y compris les surnoms et les différentes orthographes,
pour 143 cultures du monde entier)
• Validation mondiale des adresses, email et téléphones
• Résolution d’entités (rapprochement / fusion)
• Gestion collaborative des exceptions
JoAnn Simpson J.B. Simpson Mrs. J. Felder
Validation des adresses
Couverture Globale
220 territoires
Support Big Data
& Cloud
Machine Learning
Address Parsing
Certifications
Postales
Multi-moteurs et
Multi-Référentiels
Validation temps réel
Autocompletion
Enrichissement
Géospatial
Translitération
Améliore la qualité des données
dès l’acquisition en temps réel
Garantit la délivrance des
courriers et colis
Un service unique pour une
couverture Mondiale
Contribut à l’amélioration de la Vue
Unique Client
Propage la qualité des adresses dans
les différents systèmes de l’entreprise
Scalable pour traiter de fortes
volumétries
Data Matching - Unsupervised ML
De la mise en qualité à la Vue Unique Client
Source 1 Source 2 Transactions
WWW
Bridge Durieux
11 R racine
44100 Nantes
07987 654321
Mrs B Durieux
bdurieux@work.com
07987 654321
Bridget
11-13 rue Jean Racine
44 Nantes
bdurieux@work.com
01242 54300
bdurieux@work.com
Mrs Bridgitte Durieux
11 RUE RACINE
44000 NANTES
bdurieux@work.com
durieux@home.com
01242 54300
07987 654321
Normalize
Match
Merge
Registry, Consolidation, Coexistence ou Centralisé
Analytics &
Reporting
Marketing
Risk
Fraud Detection
Processus
Opérationnels
(GDPR, Engage,…)
@
Front End
Options de déploiement
Non-native
Via connecteurs
Big Data (DBMS, Hadoop
Sequence or Hive files)
NativeEmbarqué et
optimisé (MR,
Spark, Hive
udf)
Spectrum Big Data Quality SDK
Transforme & Package les composants Data Quality & Address
Quality dans un SDK pour les plateformes Hadoop
Le SDK fournit:
– Des APIs d’integration de fonctions DQ (matching,
parsing, Address Validation etc.)
– Les éléments de configuration incluant -options,
metadonnées d’E/S, builder APIs
Types d’APIs:
– Pre-built Map-reduce wrapper APIs pour les
operations de DQ
– Core AQ/DQ APIs avec des exemples de
programmes MapReduce, Hive UDF et Spark
Matching / De-Duplication
Data Parsing / Normalization
Address Validation
Hadoop MR Spark … Sample MR
Sample Spark
Sample Hive
Reporting
Spectrum Big Data Quality SDK
Utility tools
Reference Data
Client’s Application
Client’s Distributed Cluster
Client Job Controler
Big Data Quality pour
déploiement embarqué
Big Data Quality – Architecture évolutive
Qu'il s'agisse de plateformes traditionnelles ou distribuées, sur site ou dans le cloud, les composants de
Spectrum garantissent des résultats cohérents
UI Server or
Edge Node
RDBMS Flat files
Distributed
Cluster
Distributed HDFS / Distributed Execution / Distributed Storage
Name Node
Spectrum
Distributed
HDFS
Exemple Hive UDFs de Vision Unique Client incluant normalisation d’adresse et matching Nom & Adresse
Select * from table1; Select *,match (Nom, Adresse, CP, Ville) from table1;
Nom Adresse CP Ville
崴 毛 西山台6-20-4 589-0022
Mme Durieux 8 rue Ruisseau 44100 Nanets
Durieu - Prax 8 10 rue Rousseau 44
…
Nom Adresse CP Ville Match
崴 毛 西山台6-20-4 589-0022 OSAKA Collection1
Mme Durieux 8 RUE ROUSSEAU 44100 NANTES Collection2
Durieu - Prax 8 RUE ROUSSEAU 44100 NANTES Collection2
…
BDQ SDK
(Hive UDF)
Reference
Data
Match
Rules
Big Data Quality SDK
Cas clients
CHALLENGE
• Il faut profiler, nettoyer et améliorer
les données pour évaluer les
notations de crédit de 80 millions
d'entreprises rien qu'aux États-Unis
• La solution existante manquait de
règles de rapprochement souples,
d'évolutivité
• Des millions d'enregistrements à
analyser par entreprise, dans de
multiples sources de données
incohérentes, soit un total d'environ
800 millions/jour.
• 96% de Précision de la
concordance des adresses
après nettoyage et
normalisation
• Réduction des coûts de logiciels
Remplacement de plusieurs
solutions et outils
"Nous ne pouvons pas nous permettre
de manquer des informations, ou de
mélanger des informations sur des
entreprises ayant des noms similaires.
Les entreprises comptent sur notre
notation prédictive très précise pour
fournir des évaluations rapides et
précises à leurs clients et fournisseurs
potentiels".
SOLUTION
• Amazon EMR Cloud
• DQ for Big Data a nettoyé,
normalisé et comparé plus de 130
millions de requêtes/heure sur un
cluster de 10 nœuds.
Global Bank
DÉFI COMMERCIAL
La société gère des milliers de dossiers de
clients entrant dans leur système par jour.
Elle souhaitait :
• Optimiser les ventes
• Consolider les données des clients
• Obtenir une vue plus complète du profil
client individuel
• Obtenir une Validation d’adresses en
temps réel
AVANTAGES ET BÉNÉFICES
• Les services à domicile ont connu une
réduction de 25 % du nombre de
nouveaux clients créés par des
appareils portables sur le terrain.
Auparavant, à chaque fois qu'un
nouveau client était enregistré, les
commandes programmées devaient
être saisies manuellement lors des
modalités de livraison.
• Les listes de prospects sont comparées
à la base de donnée de l’entreprise,
pour éviter les doubles envois.
• L'amélioration de la qualité des
données clients a permis d'obtenir une
vue plus complète et à 360 degrés du
client.
Société de
Livraison à
Domicile "Après avoir mis en œuvre la
solution Precisely Spectrum
Enterprise Data Quality
Solution customer matching
module, nous avons constaté
une réduction de 25 % du
nombre de nouveaux clients
créés par des smartphones".
SOLUTION
• Spectrum Technology Platform
Notre proposition de valeur
• Déployez facilement des workflows de fiabilisation des Big Data MapReduce
/Spark / Hive
• «Concevez une fois, déployez n'importe où» en architecture Big Data ou
traditionnelle
• Tirez parti de la puissance de calcul de Cluster Hadoop pour fiabiliser et enrichir
• Des données plus volumineuses
• Dans des fenêtres de temps réduites
• Time to value
• Développement de la confiance des utilisateurs dans l’utilisation des Big Data
• Maximisation du retour sur vos investissements big data
En savoir plus
Pour plus d’information sur Spectrum Data Quality vous pouvez vous rendre sur notre
site Web:
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-discovery
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-quality
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-global-addressing
Merci

Contenu connexe

Similaire à La qualité des données à l’ère du Big Data

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM France Lab
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 

Similaire à La qualité des données à l’ère du Big Data (20)

Samedi SQL Québec - Intro par Louis Roy
Samedi SQL Québec - Intro par Louis RoySamedi SQL Québec - Intro par Louis Roy
Samedi SQL Québec - Intro par Louis Roy
 
Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !
 
Matinale du MDM 2011
Matinale du MDM 2011Matinale du MDM 2011
Matinale du MDM 2011
 
Denodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marchéDenodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marché
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Découvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des donnéesDécouvrez comment créer une solution complète de gouvernance des données
Découvrez comment créer une solution complète de gouvernance des données
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneTalend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Sécuriser votre chaîne d'information dans Azure
Sécuriser votre chaîne d'information dans AzureSécuriser votre chaîne d'information dans Azure
Sécuriser votre chaîne d'information dans Azure
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Exploitez toute la valeur de vos données client et produit grâce à talend 6
Exploitez toute la valeur de vos données client et produit grâce à talend 6Exploitez toute la valeur de vos données client et produit grâce à talend 6
Exploitez toute la valeur de vos données client et produit grâce à talend 6
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Prendre la data par le bon sens
Prendre la data par le bon sensPrendre la data par le bon sens
Prendre la data par le bon sens
 

Plus de Precisely

Chaining, Looping, and Long Text for Script Development and Automation.pdf
Chaining, Looping, and Long Text for Script Development and Automation.pdfChaining, Looping, and Long Text for Script Development and Automation.pdf
Chaining, Looping, and Long Text for Script Development and Automation.pdf
Precisely
 
Revolutionizing SAP® Processes with Automation and Artificial Intelligence
Revolutionizing SAP® Processes with Automation and Artificial IntelligenceRevolutionizing SAP® Processes with Automation and Artificial Intelligence
Revolutionizing SAP® Processes with Automation and Artificial Intelligence
Precisely
 
How to Build Data Governance Programs That Last - A Business-First Approach.pdf
How to Build Data Governance Programs That Last - A Business-First Approach.pdfHow to Build Data Governance Programs That Last - A Business-First Approach.pdf
How to Build Data Governance Programs That Last - A Business-First Approach.pdf
Precisely
 
Zukuntssichere SAP Prozesse dank automatisierter Massendaten
Zukuntssichere SAP Prozesse dank automatisierter MassendatenZukuntssichere SAP Prozesse dank automatisierter Massendaten
Zukuntssichere SAP Prozesse dank automatisierter Massendaten
Precisely
 
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
Precisely
 
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3fTestjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
Precisely
 
AI You Can Trust - Ensuring Success with Data Integrity Webinar
AI You Can Trust - Ensuring Success with Data Integrity WebinarAI You Can Trust - Ensuring Success with Data Integrity Webinar
AI You Can Trust - Ensuring Success with Data Integrity Webinar
Precisely
 
Moving IBM i Applications to the Cloud with AWS and Precisely
Moving IBM i Applications to the Cloud with AWS and PreciselyMoving IBM i Applications to the Cloud with AWS and Precisely
Moving IBM i Applications to the Cloud with AWS and Precisely
Precisely
 

Plus de Precisely (20)

Chaining, Looping, and Long Text for Script Development and Automation.pdf
Chaining, Looping, and Long Text for Script Development and Automation.pdfChaining, Looping, and Long Text for Script Development and Automation.pdf
Chaining, Looping, and Long Text for Script Development and Automation.pdf
 
Revolutionizing SAP® Processes with Automation and Artificial Intelligence
Revolutionizing SAP® Processes with Automation and Artificial IntelligenceRevolutionizing SAP® Processes with Automation and Artificial Intelligence
Revolutionizing SAP® Processes with Automation and Artificial Intelligence
 
Navigating the Cloud: Best Practices for Successful Migration
Navigating the Cloud: Best Practices for Successful MigrationNavigating the Cloud: Best Practices for Successful Migration
Navigating the Cloud: Best Practices for Successful Migration
 
Unlocking the Power of Your IBM i and Z Security Data with Google Chronicle
Unlocking the Power of Your IBM i and Z Security Data with Google ChronicleUnlocking the Power of Your IBM i and Z Security Data with Google Chronicle
Unlocking the Power of Your IBM i and Z Security Data with Google Chronicle
 
How to Build Data Governance Programs That Last - A Business-First Approach.pdf
How to Build Data Governance Programs That Last - A Business-First Approach.pdfHow to Build Data Governance Programs That Last - A Business-First Approach.pdf
How to Build Data Governance Programs That Last - A Business-First Approach.pdf
 
Zukuntssichere SAP Prozesse dank automatisierter Massendaten
Zukuntssichere SAP Prozesse dank automatisierter MassendatenZukuntssichere SAP Prozesse dank automatisierter Massendaten
Zukuntssichere SAP Prozesse dank automatisierter Massendaten
 
Unlocking the Potential of the Cloud for IBM Power Systems
Unlocking the Potential of the Cloud for IBM Power SystemsUnlocking the Potential of the Cloud for IBM Power Systems
Unlocking the Potential of the Cloud for IBM Power Systems
 
Crucial Considerations for AI-ready Data.pdf
Crucial Considerations for AI-ready Data.pdfCrucial Considerations for AI-ready Data.pdf
Crucial Considerations for AI-ready Data.pdf
 
Hyperautomation and AI/ML: A Strategy for Digital Transformation Success.pdf
Hyperautomation and AI/ML: A Strategy for Digital Transformation Success.pdfHyperautomation and AI/ML: A Strategy for Digital Transformation Success.pdf
Hyperautomation and AI/ML: A Strategy for Digital Transformation Success.pdf
 
Justifying Capacity Managment Webinar 4/10
Justifying Capacity Managment Webinar 4/10Justifying Capacity Managment Webinar 4/10
Justifying Capacity Managment Webinar 4/10
 
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
Automate Studio Training: Materials Maintenance Tips for Efficiency and Ease ...
 
Leveraging Mainframe Data in Near Real Time to Unleash Innovation With Cloud:...
Leveraging Mainframe Data in Near Real Time to Unleash Innovation With Cloud:...Leveraging Mainframe Data in Near Real Time to Unleash Innovation With Cloud:...
Leveraging Mainframe Data in Near Real Time to Unleash Innovation With Cloud:...
 
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3fTestjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
Testjrjnejrvnorno4rno3nrfnfjnrfnournfou3nfou3f
 
Data Innovation Summit: Data Integrity Trends
Data Innovation Summit: Data Integrity TrendsData Innovation Summit: Data Integrity Trends
Data Innovation Summit: Data Integrity Trends
 
AI You Can Trust - Ensuring Success with Data Integrity Webinar
AI You Can Trust - Ensuring Success with Data Integrity WebinarAI You Can Trust - Ensuring Success with Data Integrity Webinar
AI You Can Trust - Ensuring Success with Data Integrity Webinar
 
Optimisez la fonction financière en automatisant vos processus SAP
Optimisez la fonction financière en automatisant vos processus SAPOptimisez la fonction financière en automatisant vos processus SAP
Optimisez la fonction financière en automatisant vos processus SAP
 
SAPS/4HANA Migration - Transformation-Management + nachhaltige Investitionen
SAPS/4HANA Migration - Transformation-Management + nachhaltige InvestitionenSAPS/4HANA Migration - Transformation-Management + nachhaltige Investitionen
SAPS/4HANA Migration - Transformation-Management + nachhaltige Investitionen
 
Automatisierte SAP Prozesse mit Hilfe von APIs
Automatisierte SAP Prozesse mit Hilfe von APIsAutomatisierte SAP Prozesse mit Hilfe von APIs
Automatisierte SAP Prozesse mit Hilfe von APIs
 
Moving IBM i Applications to the Cloud with AWS and Precisely
Moving IBM i Applications to the Cloud with AWS and PreciselyMoving IBM i Applications to the Cloud with AWS and Precisely
Moving IBM i Applications to the Cloud with AWS and Precisely
 
Effective Security Monitoring for IBM i: What You Need to Know
Effective Security Monitoring for IBM i: What You Need to KnowEffective Security Monitoring for IBM i: What You Need to Know
Effective Security Monitoring for IBM i: What You Need to Know
 

La qualité des données à l’ère du Big Data

  • 2. Déroulé du webcast Webcast Audio La retransmission audio du jour est diffusée en continu sur les haut-parleurs de votre ordinateur. Si vous avez besoin d'une assistance technique concernant l'interface web ou l'audio, veuillez nous contacter en utilisant la fenêtre de discussion. Questions Soumettez vos questions à tout moment pendant la présentation en utilisant la fenêtre de chat. Nous y répondrons lors de la session de questions-réponses qui suivra la présentation. Enregistrement et slides Ce webcast est en cours d'enregistrement. Vous recevrez un email à la suite de la diffusion sur le web avec un lien pour télécharger l'enregistrement et les slides. 2
  • 3. Les Big Data ont besoin de la Data Quality Seulement 35% 92% des cadres ont une grande confiance dans l'exactitude de leurs analyses de données KPMG 2016 Global CEO Outlook D’entre eux sont préoccupés par l'impact négatif des données et des analyses sur la réputation des entreprises KPMG 2017 Global CEO Outlook 80% 84% des projets IA/ML sont bloqués en raison de la mauvaise qualité des données Dimensional Research, 2019 des PDG sont préoccupés par la qualité des données sur lesquelles ils fondent leurs décisions
  • 4. Le leader mondial en intégrité de données Faites confiance à vos données. Construisez vos possibilités. Nos logiciels d'intégrité de données et nos produits d'enrichissement de données offrent la précision et la cohérence nécessaires pour prendre des décisions en toute confiance. Les marques auxquelles vous faites confiance, nous font confiances Les partenaires Data Leaders s'associent à nous du Fortune 100 90 Des clients dans plus de 100 2,000 employés clients 12,000 pays
  • 5. Connecter l'infrastructure d'aujourd'hui avec la technologie de demain pour libérer le potentiel de toutes vos données d'entreprise Intégrer Comprendre vos données et veiller à ce qu'elles soient exactes, cohérentes et complètes pour des décisions commerciales en toute confiance Verifier Analyser les données de localisation pour obtenir des informations commerciales améliorées et exploitables qui permettent d'obtenir des résultats supérieurs Localiser Un pouvoir décisionnel accru grâce à des données sur les entreprises, les lieux et les consommateurs mises à jour par des experts Enrichir Les 4 éléments de l'intégrité des données D A T A I N T E G R I T Y
  • 6. Digital Transformation Customer Data Governance CRM / Channel Optimization BI / Data Science Governance Risk Compliance KYC / Financial Crimes & Compliance GDPR Fraud, Waste & Abuse Pourquoi gérer la qualité de vos données ?
  • 7. Les défis de la gestion de la DQ en environnement Big Data CATALOGAGE ET PROFILING DES DONNÉES • Les organisations stockent de grandes quantités de données hétérogènes dans des Data Lakes et dans le Cloud – Certaines données ne sont pas utilisables en l’état si elles ne sont pas comprises ou considérées comme peu fiables DATA MATCHING • Rapprocher tant de données nécessite des algorithmes de correspondance multi-critères sophistiqués qui doivent être manipulés et compris facilement par les métiers pour ne pas détruire de la valeur ou biaiser les rapprochements PERFORMANCES • Les outils traditionnels de Gestion de la qualité des données ne sont pas conçus pour fonctionner à cette échelle • Standardisation, Validation, Data Matching sur de telles volumétries demandent une grande puissance de calcul – en particulier le rapprochement des données nécessitant des approches itératives
  • 9. Intrinsèque •Exactitude •Cohérence •Crédibilité •Fiabilité des Sources Représentation •Interprétation •Compréhension •Intégrité •Consistance Contexte •Pertinence •Exhaustivité •Complétude •Fraicheur •Durée de vie Accessible •Accessibilité •Sécurisation •Traçabilité •Audit The Data Quality Framework Data Quality « Beyond Accuracy: What Data Quality Means to Data Consumers » Auteurs: Richard Y. Wang et Diane M. Strong Source: Journal of Management Information Systems (1996) http://mitiq.mit.edu/Documents/Publications/TDQMpub/14_Beyond_Accuracy.pdf
  • 10. Illustration sur la Représentation des données ID Nom Adresse Ville Code Postal Mobile Email Date naissance C146 崴 毛 西山台6-20-4 589-0022 0617-555-000 hual@@yaho.com 28/10/1800 W123 Mme Durieux 8 rue Ruisseau Nanets 44100 0617555000 mdurieux@gmail.com 01/06/1970 09:55:24 R423 Durieux SR Conseil 8 10 rue Rousseau Faÿ-lès-Nemours 44 06175329550 prax@yahoo.com 01-06-1970 M979 Durieu - Prax 18 R de Courcelles & Paris 06175329550 10:00:00 WEB Noms multiples Mix de termes B2C/B2B Adresse incorrecte Typos Doublons Valeur manquante Pas à la bonne place (Sémantique) Formats non standard Syntaxe et domaine invalides Scripts non homogènes Erreur de Caractère Diacritiques Pattern hétérogènes Pattern incorrect Contrainte d’intégrité Non valide
  • 11. Illustration sur la Durée de vie des données 11 4% par an 437 000 Mariages / Pacs en 2018 ~11% de la population déménage chaque année 173 000 Mariages / Dissolution Pacs en 2017 3343 Communes nouvelles / Regroupées depuis janvier 2015 742 000 Créations / Défaillance d’entreprises en 2018
  • 12. Spectrum Data Quality 12 Intégration / Fédération Découverte & Catalogage Glossaire Métier Capture de règles Métier Processus Data Quality DQ KPIs Monitoring DQ Lineage Résolution d’Exceptions Profilage Golden Record Persistance des Données Maîtres 1 2 3 4 5 Data Matching
  • 13. Gestion des meta Données Business Glossary Data Discovery Modeling Profiling Lineage & Impact Analysis • Gestion sémantique • Permet une cartographie, des modèles, des lignées et des analyses d'impact plus efficaces • Recherche de type Google • Le marquage simplifie la collaboration. • La classification sémantique aide à découvrir les IIP. • Outils de modélisation intégrés • Visuel • Fédérer les données • Soutien à une planification et une gouvernance plus efficaces • Évaluer l'exhaustivité et l'unicité. • Identifier les modèles • Appliquer des actions suggestives • Commenter et collaborer • Voir les liens vers les sources de données externes • Obtenez un aperçu du flux de données dans l'entreprise. • Tracer l'utilisation
  • 14. Définition des règles de mise en qualité Les règles de DQ doivent être mise en œuvre dans un contexte donné décrit dans le cadre de la politique de Gouvernance des Données d’une Organisation • Vérification de contraintes d’intégrité • Translittération, encodage, cleansing de caractères • Parsing, Standardisation et Validation des données • Validation des noms propres (reconnaissance globale des noms, y compris les surnoms et les différentes orthographes, pour 143 cultures du monde entier) • Validation mondiale des adresses, email et téléphones • Résolution d’entités (rapprochement / fusion) • Gestion collaborative des exceptions JoAnn Simpson J.B. Simpson Mrs. J. Felder
  • 15. Validation des adresses Couverture Globale 220 territoires Support Big Data & Cloud Machine Learning Address Parsing Certifications Postales Multi-moteurs et Multi-Référentiels Validation temps réel Autocompletion Enrichissement Géospatial Translitération Améliore la qualité des données dès l’acquisition en temps réel Garantit la délivrance des courriers et colis Un service unique pour une couverture Mondiale Contribut à l’amélioration de la Vue Unique Client Propage la qualité des adresses dans les différents systèmes de l’entreprise Scalable pour traiter de fortes volumétries
  • 16. Data Matching - Unsupervised ML
  • 17. De la mise en qualité à la Vue Unique Client Source 1 Source 2 Transactions WWW Bridge Durieux 11 R racine 44100 Nantes 07987 654321 Mrs B Durieux bdurieux@work.com 07987 654321 Bridget 11-13 rue Jean Racine 44 Nantes bdurieux@work.com 01242 54300 bdurieux@work.com Mrs Bridgitte Durieux 11 RUE RACINE 44000 NANTES bdurieux@work.com durieux@home.com 01242 54300 07987 654321 Normalize Match Merge Registry, Consolidation, Coexistence ou Centralisé Analytics & Reporting Marketing Risk Fraud Detection Processus Opérationnels (GDPR, Engage,…) @ Front End
  • 18. Options de déploiement Non-native Via connecteurs Big Data (DBMS, Hadoop Sequence or Hive files) NativeEmbarqué et optimisé (MR, Spark, Hive udf)
  • 19. Spectrum Big Data Quality SDK Transforme & Package les composants Data Quality & Address Quality dans un SDK pour les plateformes Hadoop Le SDK fournit: – Des APIs d’integration de fonctions DQ (matching, parsing, Address Validation etc.) – Les éléments de configuration incluant -options, metadonnées d’E/S, builder APIs Types d’APIs: – Pre-built Map-reduce wrapper APIs pour les operations de DQ – Core AQ/DQ APIs avec des exemples de programmes MapReduce, Hive UDF et Spark Matching / De-Duplication Data Parsing / Normalization Address Validation Hadoop MR Spark … Sample MR Sample Spark Sample Hive Reporting Spectrum Big Data Quality SDK Utility tools Reference Data Client’s Application Client’s Distributed Cluster Client Job Controler Big Data Quality pour déploiement embarqué
  • 20. Big Data Quality – Architecture évolutive Qu'il s'agisse de plateformes traditionnelles ou distribuées, sur site ou dans le cloud, les composants de Spectrum garantissent des résultats cohérents UI Server or Edge Node RDBMS Flat files Distributed Cluster Distributed HDFS / Distributed Execution / Distributed Storage Name Node Spectrum Distributed HDFS
  • 21. Exemple Hive UDFs de Vision Unique Client incluant normalisation d’adresse et matching Nom & Adresse Select * from table1; Select *,match (Nom, Adresse, CP, Ville) from table1; Nom Adresse CP Ville 崴 毛 西山台6-20-4 589-0022 Mme Durieux 8 rue Ruisseau 44100 Nanets Durieu - Prax 8 10 rue Rousseau 44 … Nom Adresse CP Ville Match 崴 毛 西山台6-20-4 589-0022 OSAKA Collection1 Mme Durieux 8 RUE ROUSSEAU 44100 NANTES Collection2 Durieu - Prax 8 RUE ROUSSEAU 44100 NANTES Collection2 … BDQ SDK (Hive UDF) Reference Data Match Rules Big Data Quality SDK
  • 23. CHALLENGE • Il faut profiler, nettoyer et améliorer les données pour évaluer les notations de crédit de 80 millions d'entreprises rien qu'aux États-Unis • La solution existante manquait de règles de rapprochement souples, d'évolutivité • Des millions d'enregistrements à analyser par entreprise, dans de multiples sources de données incohérentes, soit un total d'environ 800 millions/jour. • 96% de Précision de la concordance des adresses après nettoyage et normalisation • Réduction des coûts de logiciels Remplacement de plusieurs solutions et outils "Nous ne pouvons pas nous permettre de manquer des informations, ou de mélanger des informations sur des entreprises ayant des noms similaires. Les entreprises comptent sur notre notation prédictive très précise pour fournir des évaluations rapides et précises à leurs clients et fournisseurs potentiels". SOLUTION • Amazon EMR Cloud • DQ for Big Data a nettoyé, normalisé et comparé plus de 130 millions de requêtes/heure sur un cluster de 10 nœuds. Global Bank
  • 24. DÉFI COMMERCIAL La société gère des milliers de dossiers de clients entrant dans leur système par jour. Elle souhaitait : • Optimiser les ventes • Consolider les données des clients • Obtenir une vue plus complète du profil client individuel • Obtenir une Validation d’adresses en temps réel AVANTAGES ET BÉNÉFICES • Les services à domicile ont connu une réduction de 25 % du nombre de nouveaux clients créés par des appareils portables sur le terrain. Auparavant, à chaque fois qu'un nouveau client était enregistré, les commandes programmées devaient être saisies manuellement lors des modalités de livraison. • Les listes de prospects sont comparées à la base de donnée de l’entreprise, pour éviter les doubles envois. • L'amélioration de la qualité des données clients a permis d'obtenir une vue plus complète et à 360 degrés du client. Société de Livraison à Domicile "Après avoir mis en œuvre la solution Precisely Spectrum Enterprise Data Quality Solution customer matching module, nous avons constaté une réduction de 25 % du nombre de nouveaux clients créés par des smartphones". SOLUTION • Spectrum Technology Platform
  • 25. Notre proposition de valeur • Déployez facilement des workflows de fiabilisation des Big Data MapReduce /Spark / Hive • «Concevez une fois, déployez n'importe où» en architecture Big Data ou traditionnelle • Tirez parti de la puissance de calcul de Cluster Hadoop pour fiabiliser et enrichir • Des données plus volumineuses • Dans des fenêtres de temps réduites • Time to value • Développement de la confiance des utilisateurs dans l’utilisation des Big Data • Maximisation du retour sur vos investissements big data
  • 26. En savoir plus Pour plus d’information sur Spectrum Data Quality vous pouvez vous rendre sur notre site Web: • https://www.precisely.com/product/precisely-spectrum-quality/spectrum-discovery • https://www.precisely.com/product/precisely-spectrum-quality/spectrum-quality • https://www.precisely.com/product/precisely-spectrum-quality/spectrum-global-addressing
  • 27. Merci

Notes de l'éditeur

  1. Semaine d’apres envoi slide
  2. La qualité des données est un facteur de succès pour accélérer l'innovation des entreprises grâce à des données fiables, tout en obligeant à respecter les exigences réglementaires pour réduire le risque opérationnel et accroître l'efficacité". Data quality is a success factor for accelerating business innovation with trusted data, while also mandating to fulfill regulatory requirements to reduce operational risk and increase efficiency ” La qualité des données est un facteur de succès pour accélérer l'innovation des entreprises grâce à des données fiables, tout en obligeant à respecter les exigences réglementaires pour réduire le risque opérationnel et accroître l'efficacité". Accélération digitalisation context COVID
  3. C’est pourquoi aujourd’hui precisely aide les acteurs du marché sur les problematiques inerente à la DQ. Precisely est issue de la fusion entre PBS et Syncsort … etc
  4. Precisely propose d’integrer, de verifier, de localiser et d’enrichir vos données. Notamment en connectant votre infrasstructure d’auj avec la techno de demain, de comprendre vos données et veiller à ce qu’elles soient exactes, cohérentes et complètes dans vos prises de décisions. Mais aussi, d’analyser vos données de localisation afin d’obtenir de meilleurs info exploitables pour de meilleurs résultats, et enfin enrichir votre base grâce à des données sur les entreprises, leurs lieux et les consommateurs MAJ par des experts.
  5. Alors, pourquoi devriez vous opter pour une meilleure gestion de la DQ? la Data Governance implique de mettre en place une politique de sécurisation des informations de l’entreprise et de ses clients. Selon la CNIL, il convient de la mettre en place à toutes les échelles : contrôler les accès, tracer l’activité et gérer les violations de données, réduire les vulnérabilités, anonymisation, etc.
  6. De multiples défits sont observe notamment en matière de profiling des données où les organization stockent de grandes quantités hétérogène de données dans les data lakes et cloud! Avec le data matching, ou le rapprochement de toutes ces sources est difficile, il n faut pas dédruire ou biaiser la valeurs des rapprochement Et enfin sur la performance, où la puissance de calcul est necessaire. Avec tous ces défis, nous avons créer pour vous, la solution Spectrum DQ qu’Eric va, à present, vous presenter ! This trend will certainly continue into the 2020s, but with some adjustments: Hybrid environments. Many companies can’t store sensitive information in the cloud, so they choose to keep a certain amount of data on premises and move the rest to the cloud. Multi-cloud environments. Some companies wanting to address their business needs to the fullest choose to store data using a combination of clouds, both public and private.
  7. Avant de rentrer dans les détails de l’intégration que nous vous présentons aujourd’hui, J’aimerai rapidement revenir sur la définition de la Qualité De Données ou plus exactement sur celle que 2 chercheurs Yang et Strong ont proposé dans une publication dans le journal Management Information Systems en 1996. On voit que le sujet n’est pas récent mais on a voit bien qu’il est encore plus d’actualité aujourd’hui, si l’on se réfère aux recommandations du Gartner. Ce « framework », ou « cadre », décrit de façon exhaustive, les dimensions qui caractérisent la Qualité des Données ainsi qu’une classification de ces dimensions. Parmi elles, on peut citer celles liées à la Représentation des données, qui doit s’appuyer sur des STANDARDS voir des NORMES de représentation pour éviter les interprétations qu’on peut en faire. On peut également citer la crédibilité, c’est-à-dire le caractère VRAI d’une l’information, – comme un numéro de téléphone -, qui nécessite des vérifications d’existence dans des sources externes. Enfin, on peut souligner le caractère CONTEXTUEL des données, lorsque celles-ci doivent s’adapter à des cas d’usage spécifiques, et aussi faire l’objet de fiabilisation continue. Une information vraie à un instant T, pouvant devenir fausse, à un instant T+1. La dimension d’accessibilité, est parfaitement couverte par la Data Gouvernance. Ce « Cadre », démontre bien que Qualité des Données et Data Gouvernance, sont étroitement liées.
  8. Alors si on prend quelque exemples concrets des écueils que l’on rencontre communément, on peut citer des contraintes d’intégrité tel que : Les CONTRAINTES d’entités, (Unicité, valeurs nulles) pour des clés primaires, Les CONTRAINTES de DOMAINE, telles qu’un bornage de valeurs, ou leur présence dans une liste de valeurs autorisées, Les dépendances FONCTIONNELLES intra tables, Les CONTRAINTES référentielles, arithmétiques, ou TEMPORELLES. Mais on peut citer également des problèmes lié à la REPRESENTATION des données elle-même: A la présence de caractères spéciaux, A des caractères accentués ou casses différentes pour certaines données, qui peuvent impacter des rapprochements de ces données, A des formats, – ou patterns -, non homogènes que l’on essaiera d’homogénéiser, A des formats, – ou patterns –, incorrects, comme un code postal français sur 4 caractères, ou un Email avec des caractères non autorisés. Enfin, des problèmes liés à la validation des données comme une adresse postale incorrecte, au sens inexistante dans les référentiels postaux, ou un numéro de téléphone non affecté. Certaines de ces erreurs peuvent être évitées en mettant en place des règles de gestion au niveau des bases de données. Mais lorsqu’elle ne sont pas déclarées, ou lorsqu’on travaille sur des données provenant de fichiers ou d’applications qui ne les prennent pas en compte, une solution de gestion de la Qualité comme Trillium, pourra signaler et corriger la plupart d’entre elles.
  9. qui ont un impact important sur la qualité de l’adresse. Ces changements se sont particulièrement accélérés depuis deux ans dans le cadre de la réforme territoriale en cours. On peut aussi parler des unions, et des-unions d’individus, des créations et défaillances d’entreprises, ou des déménagements.
  10. Pour cela on va utiliser un SDK qui va nous permettre de déployer les composants Spectrum de gestion de qualité de données et de data matching sur des clusters Spark ou Hadoop. Ces composants, vont s’appuyer sur les règles métier qui seront définies et testées avec des interfaces utilisateur Spectrum ainsi que sur des données de référence
  11. Exemple d’une Vision Unique Foyer. Execute the query in Hive Setup Place the Reference Data in HDFS or local to Data Nodes Register the UDF functions in Hive Execute the hive query with the UDF function