Face à l’essor du Big Data et à la multiplication des sources de données, les entreprises ont de plus en plus de données à leur disposition.
Malheureusement, 40% des données d’entreprises sont toujours inexactes, incomplètes ou indisponibles.
Parce que l’impact d’une donnée mal qualifiée sur la non-performance est majeur, la gestion de sa qualité doit donc être perçue comme un réel levier de performance.
Une meilleure vue unique client est un facteur de succès pour accélérer l'innovation des entreprises grâce à des données fiables, tout en obligeant à respecter les exigences réglementaires pour réduire le risque opérationnel et accroître l'efficacité.
Joignez-vous à notre webinaire pour découvrir :
- Comment répondre aux besoins court terme d’amélioration d’accès, d’intégration et de gestion de la qualité des données
- Une réelle gouvernance des données avec la mise en œuvre d’une gestion agile des données de référence par domaine métier
- Comment obtenir une réelle vue unique client
- Cas clients
2. Déroulé du webcast
Webcast Audio
La retransmission audio du jour est diffusée en continu sur les haut-parleurs de votre ordinateur.
Si vous avez besoin d'une assistance technique concernant l'interface web ou l'audio, veuillez
nous contacter en utilisant la fenêtre de discussion.
Questions
Soumettez vos questions à tout moment pendant la présentation en utilisant la fenêtre de chat.
Nous y répondrons lors de la session de questions-réponses qui suivra la présentation.
Enregistrement et slides
Ce webcast est en cours d'enregistrement. Vous recevrez un email à la suite de la diffusion sur le
web avec un lien pour télécharger l'enregistrement et les slides.
2
3. Les Big Data
ont besoin
de la
Data Quality
Seulement
35% 92%
des cadres ont une grande
confiance dans l'exactitude de leurs
analyses de données
KPMG 2016 Global CEO Outlook
D’entre eux sont préoccupés par
l'impact négatif des données et des
analyses sur la réputation des
entreprises
KPMG 2017 Global CEO Outlook
80% 84%
des projets IA/ML sont bloqués en
raison de la mauvaise qualité des
données
Dimensional Research, 2019
des PDG sont préoccupés par la
qualité des données sur lesquelles
ils fondent leurs décisions
4. Le leader mondial en intégrité de données
Faites confiance à vos données. Construisez vos possibilités.
Nos logiciels d'intégrité de données et nos produits d'enrichissement de
données offrent la précision et la cohérence nécessaires pour prendre des
décisions en toute confiance.
Les marques auxquelles vous faites confiance, nous font confiances
Les partenaires Data Leaders s'associent à nous
du Fortune 100
90
Des clients dans plus de
100
2,000
employés
clients
12,000
pays
5. Connecter l'infrastructure
d'aujourd'hui avec la
technologie de demain pour
libérer le potentiel de toutes
vos données d'entreprise
Intégrer
Comprendre vos données et veiller à
ce qu'elles soient exactes,
cohérentes et complètes pour des
décisions commerciales en toute
confiance
Verifier
Analyser les données de localisation
pour obtenir des informations
commerciales améliorées et
exploitables qui permettent d'obtenir
des résultats supérieurs
Localiser
Un pouvoir décisionnel accru
grâce à des données sur les
entreprises, les lieux et les
consommateurs mises à jour
par des experts
Enrichir
Les 4 éléments de l'intégrité des données
D A T A I N T E G R I T Y
6. Digital
Transformation
Customer Data
Governance
CRM / Channel
Optimization
BI / Data Science
Governance
Risk Compliance
KYC / Financial Crimes &
Compliance GDPR
Fraud, Waste &
Abuse
Pourquoi gérer la qualité de vos données ?
7. Les défis de la gestion de la DQ
en environnement Big Data
CATALOGAGE ET PROFILING DES DONNÉES
• Les organisations stockent de grandes quantités de données hétérogènes dans des Data
Lakes et dans le Cloud – Certaines données ne sont pas utilisables en l’état si elles ne sont
pas comprises ou considérées comme peu fiables
DATA MATCHING
• Rapprocher tant de données nécessite des algorithmes de correspondance multi-critères
sophistiqués qui doivent être manipulés et compris facilement par les métiers pour ne pas
détruire de la valeur ou biaiser les rapprochements
PERFORMANCES
• Les outils traditionnels de Gestion de la qualité des données ne sont pas conçus pour
fonctionner à cette échelle
• Standardisation, Validation, Data Matching sur de telles volumétries demandent une
grande puissance de calcul – en particulier le rapprochement des données nécessitant
des approches itératives
10. Illustration sur la Représentation des données
ID Nom Adresse Ville Code Postal Mobile Email Date naissance
C146 崴 毛 西山台6-20-4 589-0022 0617-555-000 hual@@yaho.com 28/10/1800
W123 Mme Durieux 8 rue Ruisseau Nanets 44100 0617555000 mdurieux@gmail.com 01/06/1970 09:55:24
R423 Durieux SR Conseil 8 10 rue Rousseau Faÿ-lès-Nemours 44 06175329550 prax@yahoo.com 01-06-1970
M979 Durieu - Prax 18 R de Courcelles & Paris 06175329550 10:00:00
WEB
Noms multiples
Mix de termes B2C/B2B
Adresse incorrecte
Typos
Doublons
Valeur manquante
Pas à la bonne
place
(Sémantique)
Formats non standard
Syntaxe et domaine invalides
Scripts non homogènes
Erreur de Caractère
Diacritiques
Pattern hétérogènes
Pattern incorrect
Contrainte d’intégrité
Non valide
11. Illustration sur la Durée de vie des données
11
4% par an
437 000
Mariages / Pacs en
2018
~11% de la population
déménage chaque année
173 000
Mariages / Dissolution
Pacs en 2017
3343
Communes nouvelles / Regroupées
depuis janvier 2015
742 000
Créations / Défaillance
d’entreprises en 2018
12. Spectrum Data Quality
12
Intégration /
Fédération
Découverte &
Catalogage
Glossaire
Métier
Capture de
règles
Métier
Processus
Data Quality
DQ KPIs
Monitoring
DQ
Lineage
Résolution
d’Exceptions
Profilage
Golden
Record
Persistance
des Données
Maîtres
1 2 3 4 5
Data
Matching
13. Gestion des meta Données
Business Glossary Data
Discovery
Modeling Profiling Lineage & Impact
Analysis
• Gestion
sémantique
• Permet une
cartographie, des
modèles, des
lignées et des
analyses d'impact
plus efficaces
• Recherche de
type Google
• Le marquage
simplifie la
collaboration.
• La classification
sémantique aide
à découvrir les
IIP.
• Outils de
modélisation
intégrés
• Visuel
• Fédérer les
données
• Soutien à une
planification et
une gouvernance
plus efficaces
• Évaluer
l'exhaustivité et
l'unicité.
• Identifier les
modèles
• Appliquer des
actions
suggestives
• Commenter et
collaborer
• Voir les liens vers
les sources de
données externes
• Obtenez un
aperçu du flux de
données dans
l'entreprise.
• Tracer l'utilisation
14. Définition des règles de mise en qualité
Les règles de DQ doivent être mise en œuvre dans un contexte
donné décrit dans le cadre de la politique de Gouvernance des
Données d’une Organisation
• Vérification de contraintes d’intégrité
• Translittération, encodage, cleansing de caractères
• Parsing, Standardisation et Validation des données
• Validation des noms propres (reconnaissance globale des
noms, y compris les surnoms et les différentes orthographes,
pour 143 cultures du monde entier)
• Validation mondiale des adresses, email et téléphones
• Résolution d’entités (rapprochement / fusion)
• Gestion collaborative des exceptions
JoAnn Simpson J.B. Simpson Mrs. J. Felder
15. Validation des adresses
Couverture Globale
220 territoires
Support Big Data
& Cloud
Machine Learning
Address Parsing
Certifications
Postales
Multi-moteurs et
Multi-Référentiels
Validation temps réel
Autocompletion
Enrichissement
Géospatial
Translitération
Améliore la qualité des données
dès l’acquisition en temps réel
Garantit la délivrance des
courriers et colis
Un service unique pour une
couverture Mondiale
Contribut à l’amélioration de la Vue
Unique Client
Propage la qualité des adresses dans
les différents systèmes de l’entreprise
Scalable pour traiter de fortes
volumétries
19. Spectrum Big Data Quality SDK
Transforme & Package les composants Data Quality & Address
Quality dans un SDK pour les plateformes Hadoop
Le SDK fournit:
– Des APIs d’integration de fonctions DQ (matching,
parsing, Address Validation etc.)
– Les éléments de configuration incluant -options,
metadonnées d’E/S, builder APIs
Types d’APIs:
– Pre-built Map-reduce wrapper APIs pour les
operations de DQ
– Core AQ/DQ APIs avec des exemples de
programmes MapReduce, Hive UDF et Spark
Matching / De-Duplication
Data Parsing / Normalization
Address Validation
Hadoop MR Spark … Sample MR
Sample Spark
Sample Hive
Reporting
Spectrum Big Data Quality SDK
Utility tools
Reference Data
Client’s Application
Client’s Distributed Cluster
Client Job Controler
Big Data Quality pour
déploiement embarqué
20. Big Data Quality – Architecture évolutive
Qu'il s'agisse de plateformes traditionnelles ou distribuées, sur site ou dans le cloud, les composants de
Spectrum garantissent des résultats cohérents
UI Server or
Edge Node
RDBMS Flat files
Distributed
Cluster
Distributed HDFS / Distributed Execution / Distributed Storage
Name Node
Spectrum
Distributed
HDFS
21. Exemple Hive UDFs de Vision Unique Client incluant normalisation d’adresse et matching Nom & Adresse
Select * from table1; Select *,match (Nom, Adresse, CP, Ville) from table1;
Nom Adresse CP Ville
崴 毛 西山台6-20-4 589-0022
Mme Durieux 8 rue Ruisseau 44100 Nanets
Durieu - Prax 8 10 rue Rousseau 44
…
Nom Adresse CP Ville Match
崴 毛 西山台6-20-4 589-0022 OSAKA Collection1
Mme Durieux 8 RUE ROUSSEAU 44100 NANTES Collection2
Durieu - Prax 8 RUE ROUSSEAU 44100 NANTES Collection2
…
BDQ SDK
(Hive UDF)
Reference
Data
Match
Rules
Big Data Quality SDK
23. CHALLENGE
• Il faut profiler, nettoyer et améliorer
les données pour évaluer les
notations de crédit de 80 millions
d'entreprises rien qu'aux États-Unis
• La solution existante manquait de
règles de rapprochement souples,
d'évolutivité
• Des millions d'enregistrements à
analyser par entreprise, dans de
multiples sources de données
incohérentes, soit un total d'environ
800 millions/jour.
• 96% de Précision de la
concordance des adresses
après nettoyage et
normalisation
• Réduction des coûts de logiciels
Remplacement de plusieurs
solutions et outils
"Nous ne pouvons pas nous permettre
de manquer des informations, ou de
mélanger des informations sur des
entreprises ayant des noms similaires.
Les entreprises comptent sur notre
notation prédictive très précise pour
fournir des évaluations rapides et
précises à leurs clients et fournisseurs
potentiels".
SOLUTION
• Amazon EMR Cloud
• DQ for Big Data a nettoyé,
normalisé et comparé plus de 130
millions de requêtes/heure sur un
cluster de 10 nœuds.
Global Bank
24. DÉFI COMMERCIAL
La société gère des milliers de dossiers de
clients entrant dans leur système par jour.
Elle souhaitait :
• Optimiser les ventes
• Consolider les données des clients
• Obtenir une vue plus complète du profil
client individuel
• Obtenir une Validation d’adresses en
temps réel
AVANTAGES ET BÉNÉFICES
• Les services à domicile ont connu une
réduction de 25 % du nombre de
nouveaux clients créés par des
appareils portables sur le terrain.
Auparavant, à chaque fois qu'un
nouveau client était enregistré, les
commandes programmées devaient
être saisies manuellement lors des
modalités de livraison.
• Les listes de prospects sont comparées
à la base de donnée de l’entreprise,
pour éviter les doubles envois.
• L'amélioration de la qualité des
données clients a permis d'obtenir une
vue plus complète et à 360 degrés du
client.
Société de
Livraison à
Domicile "Après avoir mis en œuvre la
solution Precisely Spectrum
Enterprise Data Quality
Solution customer matching
module, nous avons constaté
une réduction de 25 % du
nombre de nouveaux clients
créés par des smartphones".
SOLUTION
• Spectrum Technology Platform
25. Notre proposition de valeur
• Déployez facilement des workflows de fiabilisation des Big Data MapReduce
/Spark / Hive
• «Concevez une fois, déployez n'importe où» en architecture Big Data ou
traditionnelle
• Tirez parti de la puissance de calcul de Cluster Hadoop pour fiabiliser et enrichir
• Des données plus volumineuses
• Dans des fenêtres de temps réduites
• Time to value
• Développement de la confiance des utilisateurs dans l’utilisation des Big Data
• Maximisation du retour sur vos investissements big data
26. En savoir plus
Pour plus d’information sur Spectrum Data Quality vous pouvez vous rendre sur notre
site Web:
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-discovery
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-quality
• https://www.precisely.com/product/precisely-spectrum-quality/spectrum-global-addressing
La qualité des données est un facteur de succès pour accélérer l'innovation des entreprises grâce à des données fiables, tout en obligeant à respecter les exigences réglementaires pour réduire le risque opérationnel et accroître l'efficacité".
Data quality is a success factor for accelerating business innovation with trusted data, while also mandating to fulfill regulatory requirements to reduce operational risk and increase efficiency ”
La qualité des données est un facteur de succès pour accélérer l'innovation des entreprises grâce à des données fiables, tout en obligeant à respecter les exigences réglementaires pour réduire le risque opérationnel et accroître l'efficacité".
Accélération digitalisation context COVID
C’est pourquoi aujourd’hui precisely aide les acteurs du marché sur les problematiques inerente à la DQ.
Precisely est issue de la fusion entre PBS et Syncsort … etc
Precisely propose d’integrer, de verifier, de localiser et d’enrichir vos données.
Notamment en connectant votre infrasstructure d’auj avec la techno de demain, de comprendre vos données et veiller à ce qu’elles soient exactes, cohérentes et complètes dans vos prises de décisions. Mais aussi, d’analyser vos données de localisation afin d’obtenir de meilleurs info exploitables pour de meilleurs résultats, et enfin enrichir votre base grâce à des données sur les entreprises, leurs lieux et les consommateurs MAJ par des experts.
Alors, pourquoi devriez vous opter pour une meilleure gestion de la DQ?
la Data Governance implique de mettre en place une politique de sécurisation des informations de l’entreprise et de ses clients. Selon la CNIL, il convient de la mettre en place à toutes les échelles : contrôler les accès, tracer l’activité et gérer les violations de données, réduire les vulnérabilités, anonymisation, etc.
De multiples défits sont observe notamment en matière de profiling des données où les organization stockent de grandes quantités hétérogène de données dans les data lakes et cloud!
Avec le data matching, ou le rapprochement de toutes ces sources est difficile, il n faut pas dédruire ou biaiser la valeurs des rapprochement
Et enfin sur la performance, où la puissance de calcul est necessaire.
Avec tous ces défis, nous avons créer pour vous, la solution Spectrum DQ qu’Eric va, à present, vous presenter !
This trend will certainly continue into the 2020s, but with some adjustments:
Hybrid environments. Many companies can’t store sensitive information in the cloud, so they choose to keep a certain amount of data on premises and move the rest to the cloud.
Multi-cloud environments. Some companies wanting to address their business needs to the fullest choose to store data using a combination of clouds, both public and private.
Avant de rentrer dans les détails de l’intégration que nous vous présentons aujourd’hui, J’aimerai rapidement revenir sur la définition de la Qualité De Données ou plus exactement sur celle que 2 chercheurs Yang et Strong ont proposé dans une publication dans le journal Management Information Systems en 1996.
On voit que le sujet n’est pas récent mais on a voit bien qu’il est encore plus d’actualité aujourd’hui, si l’on se réfère aux recommandations du Gartner. Ce « framework », ou « cadre », décrit de façon exhaustive, les dimensions qui caractérisent la Qualité des Données ainsi qu’une classification de ces dimensions.
Parmi elles, on peut citer celles liées à la Représentation des données, qui doit s’appuyer sur des STANDARDS voir des NORMES de représentation pour éviter les interprétations qu’on peut en faire.
On peut également citer la crédibilité, c’est-à-dire le caractère VRAI d’une l’information, – comme un numéro de téléphone -, qui nécessite des vérifications d’existence dans des sources externes.
Enfin, on peut souligner le caractère CONTEXTUEL des données, lorsque celles-ci doivent s’adapter à des cas d’usage spécifiques, et aussi faire l’objet de fiabilisation continue. Une information vraie à un instant T, pouvant devenir fausse, à un instant T+1.
La dimension d’accessibilité, est parfaitement couverte par la Data Gouvernance. Ce « Cadre », démontre bien que Qualité des Données et Data Gouvernance, sont étroitement liées.
Alors si on prend quelque exemples concrets des écueils que l’on rencontre communément, on peut citer des contraintes d’intégrité tel que :
Les CONTRAINTES d’entités, (Unicité, valeurs nulles) pour des clés primaires,
Les CONTRAINTES de DOMAINE, telles qu’un bornage de valeurs, ou leur présence dans une liste de valeurs autorisées,
Les dépendances FONCTIONNELLES intra tables,
Les CONTRAINTES référentielles, arithmétiques, ou TEMPORELLES.
Mais on peut citer également des problèmes lié à la REPRESENTATION des données elle-même:
A la présence de caractères spéciaux,
A des caractères accentués ou casses différentes pour certaines données, qui peuvent impacter des rapprochements de ces données,
A des formats, – ou patterns -, non homogènes que l’on essaiera d’homogénéiser,
A des formats, – ou patterns –, incorrects, comme un code postal français sur 4 caractères, ou un Email avec des caractères non autorisés.
Enfin, des problèmes liés à la validation des données comme une adresse postale incorrecte, au sens inexistante dans les référentiels postaux, ou un numéro de téléphone non affecté.
Certaines de ces erreurs peuvent être évitées en mettant en place des règles de gestion au niveau des bases de données. Mais lorsqu’elle ne sont pas déclarées, ou lorsqu’on travaille sur des données provenant de fichiers ou d’applications qui ne les prennent pas en compte, une solution de gestion de la Qualité comme Trillium, pourra signaler et corriger la plupart d’entre elles.
qui ont un impact important sur la qualité de l’adresse. Ces changements se sont particulièrement accélérés depuis deux ans dans le cadre de la réforme territoriale en cours.
On peut aussi parler des unions, et des-unions d’individus, des créations et défaillances d’entreprises, ou des déménagements.
Pour cela on va utiliser un SDK qui va nous permettre de déployer les composants Spectrum de gestion de qualité de données et de data matching sur des clusters Spark ou Hadoop.
Ces composants, vont s’appuyer sur les règles métier qui seront définies et testées avec des interfaces utilisateur Spectrum ainsi que sur des données de référence
Exemple d’une Vision Unique Foyer.
Execute the query in Hive
Setup
Place the Reference Data in HDFS or local to Data Nodes
Register the UDF functions in Hive
Execute the hive query with the UDF function