ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
DataWerhouse : Données de qualité
1. Des données de qualité
Contexte : Cours DataWerhouse
Elaboré par : Nassim BAHRI
Présenté le 10 Mars 2015
2. Plan de la présentation
I. Introduction
II. Le coût de la non qualité
III. Démarche de qualité
IV. Le socle technologique
V. Scénarios de mise en œuvre
VI. Conclusion and Q&A
3. Introduction
• Avoir un capital de données de qualité est une nécessité
incontournable pour la réussite de toute entreprise.
• La qualité des données collectées
• La maitrise de la qualité est un enjeu important
3
6. Le coût de la non qualité
• Cet article a traité les coût de la non qualité sur trois niveaux:
– Lors de la saisie,
– Au cours d’exploitation des données,
– Lors de l’analyse.
6
7. Le coût de la non qualité
1. Lors de la saisie :
• Plus de 600 milliard de dollars perdu chaque année,
• Mauvaise qualité due à : erreur de saisie de l’information, fautes
d’orthographes, codes incorrectes, abréviation, duplication,…
7
610 000 titres à 1 yen
Au lieu de
1 titre à 610 000 yen
286 millions €
8. Le coût de la non qualité
2. Au cours de l’exploitation des données:
• Beaucoup d’entreprises négligent la qualité de leurs données,
Exploiter des données fausses ou erronées
8
Détruit pendant sa mise en orbite autour de Mars
à une altitude 50km de la surface au lieu de 150
Mars Climate Orbiter
Malentendu au niveau de l’unité de mesure
Perte de 125 millions de dollars
9. Le coût de la non qualité
3. Lors de l’analyse:
• Lors de l’analyse et la présentation, l’entreprise doit garantir la
qualité de ses données
• Données de qualité analyse décisionnelle correcte et de qualité
9
Compagnie d’assurance
Décide de fusionner sa base de données client
pour avoir une meilleur compréhension
Je peux avoir 13 millions de client
5 millions de clients
Enregistrement dupliqués
10. Le coût de la non qualité
• La direction informatique n’est pas impactée par la mauvaise
qualité des données
– « Ces données viennent de l’application, elles doivent être correctes »
– « voila une technologie qui va me garantir la qualité des données », …
Garbage In – Garbage Out
10
11. Démarche de qualité
• Dans une démarche qualité il est important de définir les
caractéristiques attendu et les critères d’évaluation de la qualité
des données
1. Données, informations et connaissances
11
Données
• Une description
élémentaires
d’un objet
Informations
• Transformation
significative des
données
Connaissances
• Le traitement
des
informations :
compréhension
et
apprentissage
12. Démarche de qualité
1. Données, informations et connaissances
• Le but de cette étape est de définir des familles de données
12
Client
Numéro compte
Nom
Adresse
Téléphone
Transaction
Date
Quantité
Prix
13. Démarche de qualité
2. Qualités des données
• Expliquer ce qui fait la qualité des données
13
Qualités
des
données
Utilité
Accessibilité
Crédibilité
Interopérabilité
Pertinence
Usage
Opportunité
Disponibilité des systèmes
Privilèges
Standardisation
Cohérence
Exactitude
Format cohérent et sans
Ambiguïté (exemple date)
14. Démarche de qualité
3. Indicateurs et mesures
• Les organisations doivent créer leurs propres définitions
opérationnelles en fonctions des objectifs et priorités de l’entreprise
14
Critères de qualité des
données
Caractéristiques Exemples d’indicateurs
Cohérence Quelles sont les données
sources des informations
contradictoires?
-Vérification de la plausibilité
-Valeur de la déviation
standard
Exactitude Les valeurs représentent-
elles la réalité?
-Fréquence de changement
des valeurs
Duplication Quelles sont les données
répétées?
-Nombre d’enregistrements
dupliqués
15. Démarche de qualité
La gouvernance
• La direction générale et les directions opérationnelle : doivent
être impliqués dans le processus de collecte et de mesure de
qualité des données.
• La comité qualité des données : qui sera chargé de la suivi et de
l’amélioration de la qualité des données
15
16. Le socle technologique
• La plupart les solutions technologique de qualités de données
intègre des outils qui offre :
– Profilage : analyse de la qualité des données
– Standardisation : s’assurer que les données sont conformes aux règles de
qualité
– Rapprochement : comparaison des données
– Nettoyage : correction des données (inexactes)
– Enrichissement : utilisation des sources externes pour annoter les données
– Décomposition : décomposer les éléments par zone de saisie
– Surveillance : suivi de la qualité des données dans le temps 16
18. Le socle technologique
• Rôle central des services de qualité dans l’architecture globale des
données
18
19. Scénarios de mise en œuvre
• Parmi les domaines stratégique qui dépondent fortement de la
qualité des données:
– Le business intelligence
– La conformité réglementaire
– Les données de référence
– Le service aux clients
– La consolidation et l’intégration des données
19
20. Conclusion
• L’amélioration de la qualité des données passe principalement par
une réflexion et une initiative du démarche qualité
• La technologie permet d’automatiser les tâches de contrôle
• La qualité des données n’est pas un problème informatique mais
plutôt un problème métier.
• Suggestion : ajouter un moyen de feedback des utilisateurs finaux.
20
Bonjour à tous et vous êtes les bienvenue. Aujourd’hui nous vous présenterons notre projet qui s’articule autour de la qualité des données dans le contexte du cours Datawerhouse.
Cette présentation est élaborée par moi-même Nassim BAHRI …
Commençons par présenter les axes importants de notre projet
Nous finirons
Ce qui compte pour les entreprises c’est la qualités des données collectés plutôt que la quantité
Il s’agit donc de fournir des données qui seront :
Tout en mettant en place des indicateurs :
La direction générale et ses directions doivent disposer :
Pour prendre les bonnes décision au moment opportun
Historiquement la gestion des qualité des données était une tache de la direction informatique. Et les direction métiers demandent l’information
Tableau / indicateur
Aujourd’hui les entreprise doivent faire face au déferlement des données et d’informations
Selon une étude faite au Etat Unis en 2002; plus de 600 milliard de dollars perdu chaque année à cause des données de mauvaises qualité
courtier
Ce qui conduit à :
En 1999 le NASA a perdu un satellite Mars Climate Orbiter à cause des données erronées
Mauvaise données de départ génère de mauvaise résultat
Le problème relevé à ce niveau c’est la démarche à utiliser pour garantir la qualité des données entrées
Comparaison et rapprochement Pour détecter les duplication
ESB : Enterprise service bus (technique informatique interlogicielle)