La qualité des données à l’ère du Big Data

LaGestiondelaqualitédesdonnées
àl’èreduBigData
Eric Hubert
Consultant Solutions
Célia Lacroix
Account Manager

Déroulé du webcast
Webcast Audio
La retransmission audio du jour est diffusée en continu sur les haut-parleurs de votre ordinateur.
Si vous avez besoin d'une assistance technique concernant l'interface web ou l'audio, veuillez
nous contacter en utilisant la fenêtre de discussion.
Questions
Soumettez vos questions à tout moment pendant la présentation en utilisant la fenêtre de chat.
Nous y répondrons lors de la session de questions-réponses qui suivra la présentation.
Enregistrement et slides
Ce webcast est en cours d'enregistrement. Vous recevrez un email à la suite de la diffusion sur le
web avec un lien pour télécharger l'enregistrement et les slides.
2

Les Big Data
ont besoin
de la
Data Quality
Seulement
35% 92%
des cadres ont une grande
confiance dans l'exactitude de leurs
analyses de données
KPMG 2016 Global CEO Outlook
D’entre eux sont préoccupés par
l'impact négatif des données et des
analyses sur la réputation des
entreprises
KPMG 2017 Global CEO Outlook
80% 84%
des projets IA/ML sont bloqués en
raison de la mauvaise qualité des
données
Dimensional Research, 2019
des PDG sont préoccupés par la
qualité des données sur lesquelles
ils fondent leurs décisions

Le leader mondial en intégrité de données
Faites confiance à vos données. Construisez vos possibilités.
Nos logiciels d'intégrité de données et nos produits d'enrichissement de
données offrent la précision et la cohérence nécessaires pour prendre des
décisions en toute confiance.
Les marques auxquelles vous faites confiance, nous font confiances
Les partenaires Data Leaders s'associent à nous
du Fortune 100
90
Des clients dans plus de
100
2,000
employés
clients
12,000
pays

Connecter l'infrastructure
d'aujourd'hui avec la
technologie de demain pour
libérer le potentiel de toutes
vos données d'entreprise
Intégrer
Comprendre vos données et veiller à
ce qu'elles soient exactes,
cohérentes et complètes pour des
décisions commerciales en toute
confiance
Verifier
Analyser les données de localisation
pour obtenir des informations
commerciales améliorées et
exploitables qui permettent d'obtenir
des résultats supérieurs
Localiser
Un pouvoir décisionnel accru
grâce à des données sur les
entreprises, les lieux et les
consommateurs mises à jour
par des experts
Enrichir
Les 4 éléments de l'intégrité des données
D A T A I N T E G R I T Y

Digital
Transformation
Customer Data
Governance
CRM / Channel
Optimization
BI / Data Science
Governance
Risk Compliance
KYC / Financial Crimes &
Compliance GDPR
Fraud, Waste &
Abuse
Pourquoi gérer la qualité de vos données ?

Les défis de la gestion de la DQ
en environnement Big Data
CATALOGAGE ET PROFILING DES DONNÉES
• Les organisations stockent de grandes quantités de données hétérogènes dans des Data
Lakes et dans le Cloud – Certaines données ne sont pas utilisables en l’état si elles ne sont
pas comprises ou considérées comme peu fiables
DATA MATCHING
• Rapprocher tant de données nécessite des algorithmes de correspondance multi-critères
sophistiqués qui doivent être manipulés et compris facilement par les métiers pour ne pas
détruire de la valeur ou biaiser les rapprochements
PERFORMANCES
• Les outils traditionnels de Gestion de la qualité des données ne sont pas conçus pour
fonctionner à cette échelle
• Standardisation, Validation, Data Matching sur de telles volumétries demandent une
grande puissance de calcul – en particulier le rapprochement des données nécessitant
des approches itératives

Intrinsèque
•Exactitude
•Cohérence
•Crédibilité
•Fiabilité des Sources
Représentation
•Interprétation
•Compréhension
•Intégrité
•Consistance
Contexte
•Pertinence
•Exhaustivité
•Complétude
•Fraicheur
•Durée de vie
Accessible
•Accessibilité
•Sécurisation
•Traçabilité
•Audit
The Data Quality
Framework
Data
Quality
« Beyond Accuracy:
What Data Quality Means
to Data Consumers »
Auteurs: Richard Y. Wang
et Diane M. Strong
Source: Journal of Management
Information Systems (1996)
http://mitiq.mit.edu/Documents/Publications/TDQMpub/14_Beyond_Accuracy.pdf

Illustration sur la Représentation des données
ID Nom Adresse Ville Code Postal Mobile Email Date naissance
C146 崴毛西山台6-20-4 589-0022 0617-555-000 hual@@yaho.com 28/10/1800
W123 Mme Durieux 8 rue Ruisseau Nanets 44100 0617555000 mdurieux@gmail.com 01/06/1970 09:55:24
R423 Durieux SR Conseil 8 10 rue Rousseau Faÿ-lès-Nemours 44 06175329550 prax@yahoo.com 01-06-1970
M979 Durieu - Prax 18 R de Courcelles & Paris 06175329550 10:00:00
WEB
Noms multiples
Mix de termes B2C/B2B
Adresse incorrecte
Typos
Doublons
Valeur manquante
Pas à la bonne
place
(Sémantique)
Formats non standard
Syntaxe et domaine invalides
Scripts non homogènes
Erreur de Caractère
Diacritiques
Pattern hétérogènes
Pattern incorrect
Contrainte d’intégrité
Non valide

Illustration sur la Durée de vie des données
11
4% par an
437 000
Mariages / Pacs en
2018
~11% de la population
déménage chaque année
173 000
Mariages / Dissolution
Pacs en 2017
3343
Communes nouvelles / Regroupées
depuis janvier 2015
742 000
Créations / Défaillance
d’entreprises en 2018

Spectrum Data Quality
12
Intégration /
Fédération
Découverte &
Catalogage
Glossaire
Métier
Capture de
règles
Métier
Processus
Data Quality
DQ KPIs
Monitoring
DQ
Lineage
Résolution
d’Exceptions
Profilage
Golden
Record
Persistance
des Données
Maîtres
1 2 3 4 5
Data
Matching

Gestion des meta Données
Business Glossary Data
Discovery
Modeling Profiling Lineage & Impact
Analysis
• Gestion
sémantique
• Permet une
cartographie, des
modèles, des
lignées et des
analyses d'impact
plus efficaces
• Recherche de
type Google
• Le marquage
simplifie la
collaboration.
• La classification
sémantique aide
à découvrir les
IIP.
• Outils de
modélisation
intégrés
• Visuel
• Fédérer les
données
• Soutien à une
planification et
une gouvernance
plus efficaces
• Évaluer
l'exhaustivité et
l'unicité.
• Identifier les
modèles
• Appliquer des
actions
suggestives
• Commenter et
collaborer
• Voir les liens vers
les sources de
données externes
• Obtenez un
aperçu du flux de
données dans
l'entreprise.
• Tracer l'utilisation

Définition des règles de mise en qualité
Les règles de DQ doivent être mise en œuvre dans un contexte
donné décrit dans le cadre de la politique de Gouvernance des
Données d’une Organisation
• Vérification de contraintes d’intégrité
• Translittération, encodage, cleansing de caractères
• Parsing, Standardisation et Validation des données
• Validation des noms propres (reconnaissance globale des
noms, y compris les surnoms et les différentes orthographes,
pour 143 cultures du monde entier)
• Validation mondiale des adresses, email et téléphones
• Résolution d’entités (rapprochement / fusion)
• Gestion collaborative des exceptions
JoAnn Simpson J.B. Simpson Mrs. J. Felder

Validation des adresses
Couverture Globale
220 territoires
Support Big Data
& Cloud
Machine Learning
Address Parsing
Certifications
Postales
Multi-moteurs et
Multi-Référentiels
Validation temps réel
Autocompletion
Enrichissement
Géospatial
Translitération
Améliore la qualité des données
dès l’acquisition en temps réel
Garantit la délivrance des
courriers et colis
Un service unique pour une
couverture Mondiale
Contribut à l’amélioration de la Vue
Unique Client
Propage la qualité des adresses dans
les différents systèmes de l’entreprise
Scalable pour traiter de fortes
volumétries

Data Matching - Unsupervised ML

De la mise en qualité à la Vue Unique Client
Source 1 Source 2 Transactions
WWW
Bridge Durieux
11 R racine
44100 Nantes
07987 654321
Mrs B Durieux
bdurieux@work.com
07987 654321
Bridget
11-13 rue Jean Racine
44 Nantes
bdurieux@work.com
01242 54300
bdurieux@work.com
Mrs Bridgitte Durieux
11 RUE RACINE
44000 NANTES
bdurieux@work.com
durieux@home.com
01242 54300
07987 654321
Normalize
Match
Merge
Registry, Consolidation, Coexistence ou Centralisé
Analytics &
Reporting
Marketing
Risk
Fraud Detection
Processus
Opérationnels
(GDPR, Engage,…)
@
Front End

Options de déploiement
Non-native
Via connecteurs
Big Data (DBMS, Hadoop
Sequence or Hive files)
NativeEmbarqué et
optimisé (MR,
Spark, Hive
udf)

Spectrum Big Data Quality SDK
Transforme & Package les composants Data Quality & Address
Quality dans un SDK pour les plateformes Hadoop
Le SDK fournit:
– Des APIs d’integration de fonctions DQ (matching,
parsing, Address Validation etc.)
– Les éléments de configuration incluant -options,
metadonnées d’E/S, builder APIs
Types d’APIs:
– Pre-built Map-reduce wrapper APIs pour les
operations de DQ
– Core AQ/DQ APIs avec des exemples de
programmes MapReduce, Hive UDF et Spark
Matching / De-Duplication
Data Parsing / Normalization
Address Validation
Hadoop MR Spark … Sample MR
Sample Spark
Sample Hive
Reporting
Spectrum Big Data Quality SDK
Utility tools
Reference Data
Client’s Application
Client’s Distributed Cluster
Client Job Controler
Big Data Quality pour
déploiement embarqué

Big Data Quality – Architecture évolutive
Qu'il s'agisse de plateformes traditionnelles ou distribuées, sur site ou dans le cloud, les composants de
Spectrum garantissent des résultats cohérents
UI Server or
Edge Node
RDBMS Flat files
Distributed
Cluster
Distributed HDFS / Distributed Execution / Distributed Storage
Name Node
Spectrum
Distributed
HDFS

Exemple Hive UDFs de Vision Unique Client incluant normalisation d’adresse et matching Nom & Adresse
Select * from table1; Select *,match (Nom, Adresse, CP, Ville) from table1;
Nom Adresse CP Ville
崴毛西山台6-20-4 589-0022
Mme Durieux 8 rue Ruisseau 44100 Nanets
Durieu - Prax 8 10 rue Rousseau 44
…
Nom Adresse CP Ville Match
崴毛西山台6-20-4 589-0022 OSAKA Collection1
Mme Durieux 8 RUE ROUSSEAU 44100 NANTES Collection2
Durieu - Prax 8 RUE ROUSSEAU 44100 NANTES Collection2
…
BDQ SDK
(Hive UDF)
Reference
Data
Match
Rules
Big Data Quality SDK

CHALLENGE
• Il faut profiler, nettoyer et améliorer
les données pour évaluer les
notations de crédit de 80 millions
d'entreprises rien qu'aux États-Unis
• La solution existante manquait de
règles de rapprochement souples,
d'évolutivité
• Des millions d'enregistrements à
analyser par entreprise, dans de
multiples sources de données
incohérentes, soit un total d'environ
800 millions/jour.
• 96% de Précision de la
concordance des adresses
après nettoyage et
normalisation
• Réduction des coûts de logiciels
Remplacement de plusieurs
solutions et outils
"Nous ne pouvons pas nous permettre
de manquer des informations, ou de
mélanger des informations sur des
entreprises ayant des noms similaires.
Les entreprises comptent sur notre
notation prédictive très précise pour
fournir des évaluations rapides et
précises à leurs clients et fournisseurs
potentiels".
SOLUTION
• Amazon EMR Cloud
• DQ for Big Data a nettoyé,
normalisé et comparé plus de 130
millions de requêtes/heure sur un
cluster de 10 nœuds.
Global Bank

DÉFI COMMERCIAL
La société gère des milliers de dossiers de
clients entrant dans leur système par jour.
Elle souhaitait :
• Optimiser les ventes
• Consolider les données des clients
• Obtenir une vue plus complète du profil
client individuel
• Obtenir une Validation d’adresses en
temps réel
AVANTAGES ET BÉNÉFICES
• Les services à domicile ont connu une
réduction de 25 % du nombre de
nouveaux clients créés par des
appareils portables sur le terrain.
Auparavant, à chaque fois qu'un
nouveau client était enregistré, les
commandes programmées devaient
être saisies manuellement lors des
modalités de livraison.
• Les listes de prospects sont comparées
à la base de donnée de l’entreprise,
pour éviter les doubles envois.
• L'amélioration de la qualité des
données clients a permis d'obtenir une
vue plus complète et à 360 degrés du
client.
Société de
Livraison à
Domicile "Après avoir mis en œuvre la
solution Precisely Spectrum
Enterprise Data Quality
Solution customer matching
module, nous avons constaté
une réduction de 25 % du
nombre de nouveaux clients
créés par des smartphones".
SOLUTION
• Spectrum Technology Platform

Notre proposition de valeur
• Déployez facilement des workflows de fiabilisation des Big Data MapReduce
/Spark / Hive
• «Concevez une fois, déployez n'importe où» en architecture Big Data ou
traditionnelle
• Tirez parti de la puissance de calcul de Cluster Hadoop pour fiabiliser et enrichir
• Des données plus volumineuses
• Dans des fenêtres de temps réduites
• Time to value
• Développement de la confiance des utilisateurs dans l’utilisation des Big Data
• Maximisation du retour sur vos investissements big data

En savoir plus
Pour plus d’information sur Spectrum Data Quality vous pouvez vous rendre sur notre
site Web:
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-discovery
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-quality
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-global-addressing

La qualité des données à l’ère du Big Data

Recommandé

Recommandé

Contenu connexe

Similaire à La qualité des données à l’ère du Big Data

Similaire à La qualité des données à l’ère du Big Data (20)

Plus de Precisely

Plus de Precisely (20)

La qualité des données à l’ère du Big Data

Notes de l'éditeur