SlideShare une entreprise Scribd logo
1  sur  21
ATELIER DE FORMATION SUR LA QUALITÉ ET
L'AMÉLIORATION DE LA QUALITÉ DES DONNÉES
Dimensions de la qualité des données
Dimensions de la qualité des données
 La signification de la qualité des données varie en fonction de l’utilisation
que l’on souhaite en faire. Par exemple, dans certains cas, la précision des
données est plus importante que leur exhaustivité, alors que dans d’autres
cas, c’est l’inverse.
 Ce concept introduit l’idée de dimensions de la qualité des données – ce qui
signifie simplement que la qualité des données peut être mesurée de
différentes manières. Les dimensions de la qualité des données présentent
une liste de mesures qui peuvent aider à évaluer l’aptitude des données
pour toute utilisation prévue.
Combien y a-t-il de dimensions de la qualité des
données ?
 Certains mettent en avant six dimensions de la qualité des données, tandis
que d’autres parlent de huit, voire de dix dimensions de qualité des données.
 Techniquement parlant, toutes les mesures de la qualité des données
relèvent de deux grandes catégories : la première concerne les
caractéristiques intrinsèques des données, tandis que la seconde porte sur
leurs caractéristiques contextuelles.
Combien y a-t-il de dimensions de la qualité des
données ?
1. Précision
2. Lignage (=Fiabilité)
3. Sémantique(=signification)
4. Structuré (Modèle, Format)
5. Complétude
6. Cohérence
7. Correct
8. Respect des délais
9. Caractère raisonnable
10. Identifiabilité
Dimensions intrinsèques de la qualité
 Ces dimensions permettent d’apprécier et d’évaluer directement la valeur
des données – au niveau granulaire ; leur signification, leur disponibilité,
leur domaine, leur structure, leur format, leurs métadonnées, etc. Ces
dimensions ne tiennent pas compte du contexte dans lequel la valeur a été
stockée, comme sa relation avec d’autres attributs ou l’ensemble de
données dans lequel elle réside. Elles sont au nombre de quatre.
1. Précision
L’exactitude des valeurs des données est
mesurée en les vérifiant par rapport à
une source connue d’informations
correctes. Cette mesure peut être
complexe si plusieurs sources contiennent
des informations correctes. Dans ce cas,
vous devez sélectionner celle qui
correspond le mieux à votre domaine et
calculer le degré de concordance de
chaque valeur de données avec la source.
Exemple de valeurs de données précises
Considérons une base de données
d’employés qui contient le numéro de
contact des employés comme attribut. Un
numéro de téléphone exact est celui qui
est correct et qui existe dans la réalité.
Vous pouvez vérifier tous les numéros de
téléphone de votre base de données des
employés en les comparant à une base de
données officielle contenant une liste de
numéros de téléphone valides.
DANS QUELLE MESURE LES VALEURS DES DONNÉES REPRÉSENTENT-ELLES LA RÉALITÉ/LA JUSTESSE ?
2. Fiabilité
La lignée des valeurs des données
est vérifiée ou testée en validant
la source d’origine, et/ou toutes
les sources qui ont mis à jour les
informations au fil du temps. Il
s’agit d’une mesure importante car
elle prouve la fiabilité des données
capturées, et leur évolution dans
le temps..
Exemple de lignée de valeurs de
données
Dans l’exemple ci-dessus, les numéros de
contact des employés sont dignes de
confiance s’ils proviennent d’une source
valide. Et la source la plus valable pour ce
type d’information est l’employé lui-même –
que les données soient saisies la première fois
ou mises à jour au fil du temps. Par ailleurs,
si les numéros de contact ont été déduits
d’un annuaire téléphonique public, cette
source d’origine est certainement douteuse et
peut potentiellement contenir des erreurs.
DANS QUELLE MESURE LA SOURCE D’ORIGINE DES VALEURS DES DONNÉES EST-ELLE FIABLE ?
3. Sémantique
Pour garantir la qualité des données, la valeur
des données doit être sémantiquement correcte,
c’est-à-dire liée à sa signification, notamment
dans le contexte de l’organisation ou du service
où elle est utilisée. Les informations sont
généralement échangées entre les différents
services et processus d’une entreprise. Dans ce
cas, les parties prenantes et les utilisateurs des
données doivent s’accorder sur la signification de
tous les attributs impliqués dans l’ensemble de
données, afin qu’ils puissent être vérifiés
sémantiquement.
Exemple de valeurs de données sémantiquement
correctes
Votre base de données des employés peut avoir
deux attributs qui stockent les numéros de contact
des employés, à savoir Numéro de téléphone 1 et
Numéro de téléphone 2. Une définition convenue
des deux attributs pourrait être que le numéro de
téléphone 1 est le numéro de portable personnel de
l’employé, tandis que le numéro de téléphone 2 est
son numéro de téléphone résidentiel.
Il est important de noter que la mesure
d’exactitude validera l’existence et la réalité de
ces deux numéros, mais que la mesure sémantique
garantira que ces deux numéros sont fidèles à leur
définition implicite – c’est-à-dire que le premier est
un numéro de portable, tandis que le second est un
numéro de téléphone résidentiel.
LES VALEURS DES DONNÉES SONT-ELLES FIDÈLES À LEUR SIGNIFICATION ?
4. Structuré
L’analyse structurelle consiste à vérifier la
représentation des valeurs des données – c’est-
à-dire que les valeurs ont un modèle et un
format valides. Il est préférable que ces
contrôles soient effectués et appliqués lors de
la saisie et de l’enregistrement des données,
de sorte que toutes les données entrantes
soient d’abord validées et, si nécessaire,
transformées avant d’être stockées dans
l’application.
Exemple de valeurs de données
structurellement correctes
Dans l’exemple ci-dessus de la base de données des
employés, toutes les valeurs de la colonne du numéro
de téléphone 1 doivent être correctement structurées
et formatées. Un exemple de numéro de téléphone mal
structuré est le suivant : 134556-7(9080. Il est toutefois
possible que le chiffre lui-même (sans le trait d’union
et les parenthèses supplémentaires) soit exact et
sémantiquement correct. Mais le format et le modèle
corrects du numéro devraient être :
+1-345-567-9080.
LES VALEURS DES DONNÉES EXISTENT-ELLES DANS LE MODÈLE ET/OU LE FORMAT CORRECT
Dimensions contextuelles de la qualité des
données
 Ces dimensions apprécient et évaluent les données dans leur contexte
global – par exemple, en considérant toutes les valeurs de données d’un
attribut ensemble, ou les valeurs de données regroupées dans des
enregistrements, etc. Ces dimensions se concentrent sur les relations entre
les différents composants des données et leur adéquation aux attentes en
matière de qualité des données.
 Ces dimensions de la qualité des données qui relèvent de la catégorie
contextuelle sont au nombre de six
5. Complétude
L’exhaustivité définit le degré auquel les valeurs de
données nécessaires sont remplies et ne sont pas laissées
en blanc. Elle peut être calculée verticalement (au niveau
des attributs) ou horizontalement (au niveau des
enregistrements). En général, les champs sont marqués
comme obligatoires/exigés pour garantir l’exhaustivité
d’un ensemble de données. Lors du calcul de
l’exhaustivité, ses trois différents types doivent être pris
en compte pour garantir l’exactitude des résultats :
Champ obligatoire qui ne peut être laissé vide ; par
exemple, l’identifiant national d’un employé.
Champ facultatif qui ne doit pas nécessairement être
rempli ; par exemple, le champ « Hobbies » d’un
employé.
Champ inapplicable qui devient non pertinent en fonction
du contexte de l’enregistrement et qui doit être laissé
vide ; par exemple, le nom du conjoint pour un individu
non marié.
Exemple de données complètes
Un exemple d’exhaustivité verticale consiste à
calculer le pourcentage d’employés pour lesquels le
numéro de téléphone 1 est fourni. Et l’exemple
d’exhaustivité horizontale consiste à calculer le
pourcentage d’informations complètes pour un
employé particulier ; par exemple, les données d’un
employé peuvent être complètes à 80 %, mais il
manque son numéro de contact et son adresse
résidentielle.
VOS DONNÉES SONT-ELLES AUSSI COMPLÈTES QUE VOUS LE SOUHAITEZ ?
6. Cohérence
La cohérence vérifie si les valeurs des données
stockées pour le même enregistrement dans des
sources disparates sont exemptes de toute
contradiction et sont exactement les mêmes,
tant en termes de signification que de structure
et de format.
Des données cohérentes permettent d’établir
des rapports uniformes et précis pour toutes les
fonctions et opérations de votre entreprise. La
cohérence ne concerne pas seulement la
signification des valeurs des données, mais aussi
leur représentation ; par exemple, lorsque des
valeurs ne sont pas applicables ou sont
indisponibles, des termes cohérents doivent
être utilisés pour représenter l’indisponibilité
des données dans toutes les sources.
Exemples de données cohérentes.
Les informations sur les employés sont
généralement stockées dans les applications
de gestion des RH, mais la base de données
doit être partagée ou répliquée pour d’autres
services, comme la paie ou les finances. Pour
garantir la cohérence, tous les attributs
stockés dans les bases de données doivent
avoir les mêmes valeurs. Sinon, une différence
dans le numéro de compte bancaire ou
d’autres champs critiques de ce type peut
devenir un énorme problème.
DES MAGASINS/BASES DE DONNÉES DISPARATES ONT-ILS LES MÊMES VALEURS DE DONNÉES POUR LES
MÊMES ENREGISTREMENTS ?
7. Actualisées
L’actualité concerne la mesure dans laquelle les
attributs des données sont du bon âge dans le
contexte de leur utilisation. Cette mesure
permet de maintenir les informations à jour et
en conformité avec le monde actuel, de sorte
que vos instantanés de données ne datent pas
de plusieurs semaines ou mois, ce qui vous
conduirait à présenter et à fonder des décisions
critiques sur des informations périmées.
Pour garantir l’actualité de votre ensemble de
données, vous pouvez définir des rappels pour la
mise à jour des données, ou fixer des limites à
l’âge d’un attribut, afin de garantir que toutes
les valeurs sont soumises à un examen et à une
mise à jour dans un délai donné.
Exemple de données à jour .
Les coordonnées de votre employé doivent
être revues régulièrement pour vérifier si
quelque chose a été récemment modifié et
doit être mis à jour dans le système.
VOS DONNÉES SONT-ELLES RAISONNABLEMENT À JOUR ?
8. Respect des délais
La rapidité d’exécution mesure le temps
nécessaire pour accéder à l’information
demandée. Si vos requêtes de données prennent
trop de temps pour aboutir, il se peut que vos
données ne soient pas bien organisées, reliées,
structurées ou formatées.
L’actualité mesure également la rapidité avec
laquelle les nouvelles informations sont
disponibles pour être utilisées dans toutes les
sources. Si votre entreprise utilise des processus
complexes et fastidieux pour stocker les
données entrantes, les utilisateurs peuvent finir
par interroger et utiliser d’anciennes
informations à certains moments.
Exemple de respect des délais.
Pour garantir la rapidité d’exécution, vous
pouvez vérifier le temps de réponse de votre
base de données des employés. En outre, vous
pouvez également tester le temps nécessaire
pour que les informations mises à jour dans
l’application RH soient reproduites dans
l’application de paie, et ainsi de suite.
DANS QUEL DÉLAI LES DONNÉES DEMANDÉES SONT-ELLES MISES À DISPOSITION/TRANSMISES?
9. Raisonable/ Correct
Le caractère raisonnable mesure la mesure dans
laquelle les valeurs des données ont un type et
une taille raisonnables ou compréhensibles. Par
exemple, il est courant de stocker des nombres
dans un champ de chaîne alphanumérique, mais
la rationalité fera en sorte que si un attribut ne
stocke que des nombres, il doit être de type
numérique.
De plus, reasonability impose également une
limite maximale et minimale de caractères aux
attributs, de sorte qu’il n’y ait pas de chaînes
de caractères inhabituellement longues dans la
base de données. La mesure de raisonnabilité
réduit l’espace pour les erreurs en appliquant
des contraintes sur le type de données et la
taille d’un attribut.
Exemple de caractère raisonnable
Le champ Numéro de téléphone 1 – s’il est
enregistré sans les traits d’union et les caractères
spéciaux – doit être défini comme numérique et
comporter une limite maximale de caractères afin
que des caractères alphanumériques
supplémentaires ne soient pas ajoutés par erreur.
LES VALEURS DES DONNÉES ONT-ELLES LE TYPE ET LA TAILLE CORRECTS ?
10. Identifiabilité
L’identifiabilité calcule le degré auquel les
enregistrements de données sont identifiables
de manière unique et ne sont pas des
doublons les uns des autres.
Pour garantir l’identifiabilité, un attribut
d’identification unique est stocké dans la
base de données pour chaque
enregistrement. Mais dans certains cas,
comme celui des organismes de santé, les
informations personnelles identifiables (PII)
sont supprimées pour préserver la
confidentialité des patients. C’est là que vous
pouvez avoir besoin d’utiliser des techniques
de rapprochement floues pour comparer,
rapprocher et fusionner des enregistrements
Exemple d’identifiabilité
Un exemple d’identifiabilité consiste à exiger
que chaque nouvel enregistrement dans la
base de données des employés contienne un
numéro d’identification unique qui permettra
de les identifier.
CHAQUE ENREGISTREMENT REPRÉSENTE-T-IL UNE IDENTITÉ UNIQUE ET N’EST-IL PAS UN DOUBLON ?
Quelles dimensions de la qualité des
données utiliser ?
 En passant en revue les dix mesures de qualité des données les plus
couramment utilisées. Chaque entreprise/structure/ institution ayant ses
propres exigences et indicateurs de performance clés, on devrait peut-être
utiliser d’autres indicateurs ou en créer de nouveaux.
 La sélection des dimensions de la qualité des données dépend de multiples
facteurs, tels que le secteur d’activité de votre entreprise/structure/
institution , la nature de vos données et le rôle qu’elles jouent dans la
réussite de vos objectifs.
Quelles dimensions de la qualité des
données utiliser ?
1. Exactitude ou Validité
2. Fiabilité
3. Précision
4. Exhaustivité
5. Promptitude
6. Intégrité/Sécurité
Dimensions de la qualité des données dans le
contexte du Burundi (1)
Dimension de
la qualité des
données Définition opérationnelle
Exactitude
Aussi appelée validité.Les données exactes sont considérées comme étant correctes: Les
données mesurent ce qu’elles doivent mesurer. Des données exactes minimisent les erreurs
(par exemple, parti pris de l'enregistrement ou de la personne qui conduit l'interview, erreur
de transcription, erreur d’échantillonnage) au point de les rendre négligeables.
Fiabilité
Les données générées par le système d’information d’un programme sont basées sur des
protocoles et procédures qui ne changent pas en fonction de la personne qui les utilise, du
moment et de la fréquence de leur utilisation. Les données sont fiables parce qu’elles sont
mesurées et collectées de manière cohérente.
Précision
Cela signifie que les données sont assez détaillées. Par exemple, un indicateur requiert la
connaissance du nombre d’individus qui ont reçu de l’assistance et des analyses du VIH et reçu
les résultats de leurs tests, selon le sexe de la personne. Un système d’information manque de
précision s’il n’a pas été conçu pour enregistrer le sexe de l’individu qui a reçu l’assistance et
les analyses.
Dimensions de la qualité des données dans le
contexte du Burundi(2)
Dimension de la
qualité des données Définition opérationnelle
L’exhaustivité
L’exhaustivité signifie qu’un système d’information duquel on tire les résultats est inclusif de
manière appropriée : Il représente la liste exhaustive des personnes ou unités éligibles et pas
juste une fraction de la liste.
L’Opportunité
Des données sont dites opportunes quand elles sont à jour (actuelles), et quand l’information
est disponible à temps. L’opportunité est affectée par: (1) le rythme auquel le système
d’information du programme est mis à jour ; (2) le rythme de changement des activités
réelles du programme ; et (3) quand l’information est réellement utilisée ou requise.
L’Intégrité Les données sont intègres quand le système utilisé pour les générer est protégé de tout parti
pris ou manipulation délibérés pour des raisons politiques ou personnelles.
Confidentialité
La confidentialité signifie que les clients sont assurés que leurs données seront conservées en
conformité avec les normes nationales et/ou internationales en matière de données. Cela
signifie que les données personnelles ne sont pas divulguées et que les données contenues
sur des supports papier et électroniques sont traitées avec un niveau de sécurité approprié
(par exemple, gardés dans des armoires fermées et des fichiers protégés par des mots de
passe).
Data for Implementation (Data.FI) is a five-year cooperative agreement funded by the U.S. President’s Emergency Plan
for AIDS Relief through the U.S. Agency for International Development under Agreement No. 7200AA19CA0004,
beginning April 15, 2019. It is implemented by Palladium, in partnership with JSI Research & Training Institute (JSI),
Johns Hopkins University (JHU) Department of Epidemiology, Right to Care (RTC), Cooper/Smith, IMC Worldwide,
Jembi Health Systems and Macro-Eyes, and supported by expert local resource partners.
This presentation was produced for review by the U.S. President’s Emergency Plan for AIDS Relief through the United States Ag ency for
International Development. It was prepared by Data for Implementation. The information provided [in this document] is not off icial U.S.
government information and does not necessarily reflect the views or positions of the U. S. President’s Emergency Plan for AI DS Relief,
U.S. Agency for International Development or the United States Government.

Contenu connexe

Tendances

Cours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.comCours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.comjamal yasser
 
Ppt techniques de colectes de donnees en suivi evaluation
Ppt techniques de colectes de donnees en suivi evaluationPpt techniques de colectes de donnees en suivi evaluation
Ppt techniques de colectes de donnees en suivi evaluationUSIGGENEVE
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitresAbdeslam ELMOUDEN
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Jamal Yasser
 
Cours des bases de données
Cours des bases de données Cours des bases de données
Cours des bases de données yassine kchiri
 
Bpm business process management
Bpm  business process managementBpm  business process management
Bpm business process managementMouna Dhaouadi
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesOpen Data Support
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesJean-Marc Dupont
 
COURS-SAGE-COMPTABILITE.pdf
COURS-SAGE-COMPTABILITE.pdfCOURS-SAGE-COMPTABILITE.pdf
COURS-SAGE-COMPTABILITE.pdfAbderrahim Rafik
 
Gestion des achats dans le prologiciel de gestion Odoo10
Gestion des achats dans le prologiciel de gestion Odoo10Gestion des achats dans le prologiciel de gestion Odoo10
Gestion des achats dans le prologiciel de gestion Odoo10Asmaà Chaouti
 
Industrie du Futur : comment orchestrer au mieux la production
Industrie du Futur : comment orchestrer au mieux la productionIndustrie du Futur : comment orchestrer au mieux la production
Industrie du Futur : comment orchestrer au mieux la productionLIEGE CREATIVE
 
Diaporama archivage electronique
Diaporama archivage electroniqueDiaporama archivage electronique
Diaporama archivage electroniqueVanessa GENDRIN
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
Analyse de la performance financière avec R
Analyse de la performance financière avec RAnalyse de la performance financière avec R
Analyse de la performance financière avec RJérémy Morvan
 

Tendances (20)

Cours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.comCours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.com
 
Ppt techniques de colectes de donnees en suivi evaluation
Ppt techniques de colectes de donnees en suivi evaluationPpt techniques de colectes de donnees en suivi evaluation
Ppt techniques de colectes de donnees en suivi evaluation
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Cours des bases de données
Cours des bases de données Cours des bases de données
Cours des bases de données
 
Bpm business process management
Bpm  business process managementBpm  business process management
Bpm business process management
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées Ouvertes
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
 
cour de Sage comptabilite-100
 cour de Sage comptabilite-100 cour de Sage comptabilite-100
cour de Sage comptabilite-100
 
COURS-SAGE-COMPTABILITE.pdf
COURS-SAGE-COMPTABILITE.pdfCOURS-SAGE-COMPTABILITE.pdf
COURS-SAGE-COMPTABILITE.pdf
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Gestion des achats dans le prologiciel de gestion Odoo10
Gestion des achats dans le prologiciel de gestion Odoo10Gestion des achats dans le prologiciel de gestion Odoo10
Gestion des achats dans le prologiciel de gestion Odoo10
 
Industrie du Futur : comment orchestrer au mieux la production
Industrie du Futur : comment orchestrer au mieux la productionIndustrie du Futur : comment orchestrer au mieux la production
Industrie du Futur : comment orchestrer au mieux la production
 
Diaporama archivage electronique
Diaporama archivage electroniqueDiaporama archivage electronique
Diaporama archivage electronique
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Analyse de la performance financière avec R
Analyse de la performance financière avec RAnalyse de la performance financière avec R
Analyse de la performance financière avec R
 

Similaire à 2. Les dimensions de la qualité des données.pptx

Atelier relation client 2011
Atelier relation client 2011Atelier relation client 2011
Atelier relation client 2011Uniserv
 
IBM Information Management - Pas de décision de qualité sans informations de ...
IBM Information Management - Pas de décision de qualité sans informations de ...IBM Information Management - Pas de décision de qualité sans informations de ...
IBM Information Management - Pas de décision de qualité sans informations de ...Nicolas Desachy
 
Chap1 Base de données
Chap1 Base de donnéesChap1 Base de données
Chap1 Base de donnéesSofiene Melki
 
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈESDÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈESAngelaPieruccini
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...dibs-conseil
 
Bank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeBank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeWavestone
 
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdf
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdfYZR - 3 solutions simples pour créer de la valeur avec vos données.pdf
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdfrodolphe gilbert-collet
 
Qualité des données et CRM
Qualité des données et CRMQualité des données et CRM
Qualité des données et CRMUniserv
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1SAGIDS1
 
tests substantifs de laudit legal semstre 9
tests substantifs de laudit legal semstre 9tests substantifs de laudit legal semstre 9
tests substantifs de laudit legal semstre 9NouhailaELBIJA
 

Similaire à 2. Les dimensions de la qualité des données.pptx (16)

Atelier relation client 2011
Atelier relation client 2011Atelier relation client 2011
Atelier relation client 2011
 
IBM Information Management - Pas de décision de qualité sans informations de ...
IBM Information Management - Pas de décision de qualité sans informations de ...IBM Information Management - Pas de décision de qualité sans informations de ...
IBM Information Management - Pas de décision de qualité sans informations de ...
 
Chap1 Base de données
Chap1 Base de donnéesChap1 Base de données
Chap1 Base de données
 
Séance 3.pptx
Séance 3.pptxSéance 3.pptx
Séance 3.pptx
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈESDÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
 
Spss 3 master comrce copy
Spss 3  master comrce   copySpss 3  master comrce   copy
Spss 3 master comrce copy
 
Livrable client Nexity
Livrable client NexityLivrable client Nexity
Livrable client Nexity
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
Bank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeBank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnée
 
D318 ch3
D318 ch3D318 ch3
D318 ch3
 
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdf
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdfYZR - 3 solutions simples pour créer de la valeur avec vos données.pdf
YZR - 3 solutions simples pour créer de la valeur avec vos données.pdf
 
Qualité des données et CRM
Qualité des données et CRMQualité des données et CRM
Qualité des données et CRM
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1
 
chap3.pdf
chap3.pdfchap3.pdf
chap3.pdf
 
tests substantifs de laudit legal semstre 9
tests substantifs de laudit legal semstre 9tests substantifs de laudit legal semstre 9
tests substantifs de laudit legal semstre 9
 

2. Les dimensions de la qualité des données.pptx

  • 1. ATELIER DE FORMATION SUR LA QUALITÉ ET L'AMÉLIORATION DE LA QUALITÉ DES DONNÉES Dimensions de la qualité des données
  • 2. Dimensions de la qualité des données  La signification de la qualité des données varie en fonction de l’utilisation que l’on souhaite en faire. Par exemple, dans certains cas, la précision des données est plus importante que leur exhaustivité, alors que dans d’autres cas, c’est l’inverse.  Ce concept introduit l’idée de dimensions de la qualité des données – ce qui signifie simplement que la qualité des données peut être mesurée de différentes manières. Les dimensions de la qualité des données présentent une liste de mesures qui peuvent aider à évaluer l’aptitude des données pour toute utilisation prévue.
  • 3. Combien y a-t-il de dimensions de la qualité des données ?  Certains mettent en avant six dimensions de la qualité des données, tandis que d’autres parlent de huit, voire de dix dimensions de qualité des données.  Techniquement parlant, toutes les mesures de la qualité des données relèvent de deux grandes catégories : la première concerne les caractéristiques intrinsèques des données, tandis que la seconde porte sur leurs caractéristiques contextuelles.
  • 4. Combien y a-t-il de dimensions de la qualité des données ? 1. Précision 2. Lignage (=Fiabilité) 3. Sémantique(=signification) 4. Structuré (Modèle, Format) 5. Complétude 6. Cohérence 7. Correct 8. Respect des délais 9. Caractère raisonnable 10. Identifiabilité
  • 5. Dimensions intrinsèques de la qualité  Ces dimensions permettent d’apprécier et d’évaluer directement la valeur des données – au niveau granulaire ; leur signification, leur disponibilité, leur domaine, leur structure, leur format, leurs métadonnées, etc. Ces dimensions ne tiennent pas compte du contexte dans lequel la valeur a été stockée, comme sa relation avec d’autres attributs ou l’ensemble de données dans lequel elle réside. Elles sont au nombre de quatre.
  • 6. 1. Précision L’exactitude des valeurs des données est mesurée en les vérifiant par rapport à une source connue d’informations correctes. Cette mesure peut être complexe si plusieurs sources contiennent des informations correctes. Dans ce cas, vous devez sélectionner celle qui correspond le mieux à votre domaine et calculer le degré de concordance de chaque valeur de données avec la source. Exemple de valeurs de données précises Considérons une base de données d’employés qui contient le numéro de contact des employés comme attribut. Un numéro de téléphone exact est celui qui est correct et qui existe dans la réalité. Vous pouvez vérifier tous les numéros de téléphone de votre base de données des employés en les comparant à une base de données officielle contenant une liste de numéros de téléphone valides. DANS QUELLE MESURE LES VALEURS DES DONNÉES REPRÉSENTENT-ELLES LA RÉALITÉ/LA JUSTESSE ?
  • 7. 2. Fiabilité La lignée des valeurs des données est vérifiée ou testée en validant la source d’origine, et/ou toutes les sources qui ont mis à jour les informations au fil du temps. Il s’agit d’une mesure importante car elle prouve la fiabilité des données capturées, et leur évolution dans le temps.. Exemple de lignée de valeurs de données Dans l’exemple ci-dessus, les numéros de contact des employés sont dignes de confiance s’ils proviennent d’une source valide. Et la source la plus valable pour ce type d’information est l’employé lui-même – que les données soient saisies la première fois ou mises à jour au fil du temps. Par ailleurs, si les numéros de contact ont été déduits d’un annuaire téléphonique public, cette source d’origine est certainement douteuse et peut potentiellement contenir des erreurs. DANS QUELLE MESURE LA SOURCE D’ORIGINE DES VALEURS DES DONNÉES EST-ELLE FIABLE ?
  • 8. 3. Sémantique Pour garantir la qualité des données, la valeur des données doit être sémantiquement correcte, c’est-à-dire liée à sa signification, notamment dans le contexte de l’organisation ou du service où elle est utilisée. Les informations sont généralement échangées entre les différents services et processus d’une entreprise. Dans ce cas, les parties prenantes et les utilisateurs des données doivent s’accorder sur la signification de tous les attributs impliqués dans l’ensemble de données, afin qu’ils puissent être vérifiés sémantiquement. Exemple de valeurs de données sémantiquement correctes Votre base de données des employés peut avoir deux attributs qui stockent les numéros de contact des employés, à savoir Numéro de téléphone 1 et Numéro de téléphone 2. Une définition convenue des deux attributs pourrait être que le numéro de téléphone 1 est le numéro de portable personnel de l’employé, tandis que le numéro de téléphone 2 est son numéro de téléphone résidentiel. Il est important de noter que la mesure d’exactitude validera l’existence et la réalité de ces deux numéros, mais que la mesure sémantique garantira que ces deux numéros sont fidèles à leur définition implicite – c’est-à-dire que le premier est un numéro de portable, tandis que le second est un numéro de téléphone résidentiel. LES VALEURS DES DONNÉES SONT-ELLES FIDÈLES À LEUR SIGNIFICATION ?
  • 9. 4. Structuré L’analyse structurelle consiste à vérifier la représentation des valeurs des données – c’est- à-dire que les valeurs ont un modèle et un format valides. Il est préférable que ces contrôles soient effectués et appliqués lors de la saisie et de l’enregistrement des données, de sorte que toutes les données entrantes soient d’abord validées et, si nécessaire, transformées avant d’être stockées dans l’application. Exemple de valeurs de données structurellement correctes Dans l’exemple ci-dessus de la base de données des employés, toutes les valeurs de la colonne du numéro de téléphone 1 doivent être correctement structurées et formatées. Un exemple de numéro de téléphone mal structuré est le suivant : 134556-7(9080. Il est toutefois possible que le chiffre lui-même (sans le trait d’union et les parenthèses supplémentaires) soit exact et sémantiquement correct. Mais le format et le modèle corrects du numéro devraient être : +1-345-567-9080. LES VALEURS DES DONNÉES EXISTENT-ELLES DANS LE MODÈLE ET/OU LE FORMAT CORRECT
  • 10. Dimensions contextuelles de la qualité des données  Ces dimensions apprécient et évaluent les données dans leur contexte global – par exemple, en considérant toutes les valeurs de données d’un attribut ensemble, ou les valeurs de données regroupées dans des enregistrements, etc. Ces dimensions se concentrent sur les relations entre les différents composants des données et leur adéquation aux attentes en matière de qualité des données.  Ces dimensions de la qualité des données qui relèvent de la catégorie contextuelle sont au nombre de six
  • 11. 5. Complétude L’exhaustivité définit le degré auquel les valeurs de données nécessaires sont remplies et ne sont pas laissées en blanc. Elle peut être calculée verticalement (au niveau des attributs) ou horizontalement (au niveau des enregistrements). En général, les champs sont marqués comme obligatoires/exigés pour garantir l’exhaustivité d’un ensemble de données. Lors du calcul de l’exhaustivité, ses trois différents types doivent être pris en compte pour garantir l’exactitude des résultats : Champ obligatoire qui ne peut être laissé vide ; par exemple, l’identifiant national d’un employé. Champ facultatif qui ne doit pas nécessairement être rempli ; par exemple, le champ « Hobbies » d’un employé. Champ inapplicable qui devient non pertinent en fonction du contexte de l’enregistrement et qui doit être laissé vide ; par exemple, le nom du conjoint pour un individu non marié. Exemple de données complètes Un exemple d’exhaustivité verticale consiste à calculer le pourcentage d’employés pour lesquels le numéro de téléphone 1 est fourni. Et l’exemple d’exhaustivité horizontale consiste à calculer le pourcentage d’informations complètes pour un employé particulier ; par exemple, les données d’un employé peuvent être complètes à 80 %, mais il manque son numéro de contact et son adresse résidentielle. VOS DONNÉES SONT-ELLES AUSSI COMPLÈTES QUE VOUS LE SOUHAITEZ ?
  • 12. 6. Cohérence La cohérence vérifie si les valeurs des données stockées pour le même enregistrement dans des sources disparates sont exemptes de toute contradiction et sont exactement les mêmes, tant en termes de signification que de structure et de format. Des données cohérentes permettent d’établir des rapports uniformes et précis pour toutes les fonctions et opérations de votre entreprise. La cohérence ne concerne pas seulement la signification des valeurs des données, mais aussi leur représentation ; par exemple, lorsque des valeurs ne sont pas applicables ou sont indisponibles, des termes cohérents doivent être utilisés pour représenter l’indisponibilité des données dans toutes les sources. Exemples de données cohérentes. Les informations sur les employés sont généralement stockées dans les applications de gestion des RH, mais la base de données doit être partagée ou répliquée pour d’autres services, comme la paie ou les finances. Pour garantir la cohérence, tous les attributs stockés dans les bases de données doivent avoir les mêmes valeurs. Sinon, une différence dans le numéro de compte bancaire ou d’autres champs critiques de ce type peut devenir un énorme problème. DES MAGASINS/BASES DE DONNÉES DISPARATES ONT-ILS LES MÊMES VALEURS DE DONNÉES POUR LES MÊMES ENREGISTREMENTS ?
  • 13. 7. Actualisées L’actualité concerne la mesure dans laquelle les attributs des données sont du bon âge dans le contexte de leur utilisation. Cette mesure permet de maintenir les informations à jour et en conformité avec le monde actuel, de sorte que vos instantanés de données ne datent pas de plusieurs semaines ou mois, ce qui vous conduirait à présenter et à fonder des décisions critiques sur des informations périmées. Pour garantir l’actualité de votre ensemble de données, vous pouvez définir des rappels pour la mise à jour des données, ou fixer des limites à l’âge d’un attribut, afin de garantir que toutes les valeurs sont soumises à un examen et à une mise à jour dans un délai donné. Exemple de données à jour . Les coordonnées de votre employé doivent être revues régulièrement pour vérifier si quelque chose a été récemment modifié et doit être mis à jour dans le système. VOS DONNÉES SONT-ELLES RAISONNABLEMENT À JOUR ?
  • 14. 8. Respect des délais La rapidité d’exécution mesure le temps nécessaire pour accéder à l’information demandée. Si vos requêtes de données prennent trop de temps pour aboutir, il se peut que vos données ne soient pas bien organisées, reliées, structurées ou formatées. L’actualité mesure également la rapidité avec laquelle les nouvelles informations sont disponibles pour être utilisées dans toutes les sources. Si votre entreprise utilise des processus complexes et fastidieux pour stocker les données entrantes, les utilisateurs peuvent finir par interroger et utiliser d’anciennes informations à certains moments. Exemple de respect des délais. Pour garantir la rapidité d’exécution, vous pouvez vérifier le temps de réponse de votre base de données des employés. En outre, vous pouvez également tester le temps nécessaire pour que les informations mises à jour dans l’application RH soient reproduites dans l’application de paie, et ainsi de suite. DANS QUEL DÉLAI LES DONNÉES DEMANDÉES SONT-ELLES MISES À DISPOSITION/TRANSMISES?
  • 15. 9. Raisonable/ Correct Le caractère raisonnable mesure la mesure dans laquelle les valeurs des données ont un type et une taille raisonnables ou compréhensibles. Par exemple, il est courant de stocker des nombres dans un champ de chaîne alphanumérique, mais la rationalité fera en sorte que si un attribut ne stocke que des nombres, il doit être de type numérique. De plus, reasonability impose également une limite maximale et minimale de caractères aux attributs, de sorte qu’il n’y ait pas de chaînes de caractères inhabituellement longues dans la base de données. La mesure de raisonnabilité réduit l’espace pour les erreurs en appliquant des contraintes sur le type de données et la taille d’un attribut. Exemple de caractère raisonnable Le champ Numéro de téléphone 1 – s’il est enregistré sans les traits d’union et les caractères spéciaux – doit être défini comme numérique et comporter une limite maximale de caractères afin que des caractères alphanumériques supplémentaires ne soient pas ajoutés par erreur. LES VALEURS DES DONNÉES ONT-ELLES LE TYPE ET LA TAILLE CORRECTS ?
  • 16. 10. Identifiabilité L’identifiabilité calcule le degré auquel les enregistrements de données sont identifiables de manière unique et ne sont pas des doublons les uns des autres. Pour garantir l’identifiabilité, un attribut d’identification unique est stocké dans la base de données pour chaque enregistrement. Mais dans certains cas, comme celui des organismes de santé, les informations personnelles identifiables (PII) sont supprimées pour préserver la confidentialité des patients. C’est là que vous pouvez avoir besoin d’utiliser des techniques de rapprochement floues pour comparer, rapprocher et fusionner des enregistrements Exemple d’identifiabilité Un exemple d’identifiabilité consiste à exiger que chaque nouvel enregistrement dans la base de données des employés contienne un numéro d’identification unique qui permettra de les identifier. CHAQUE ENREGISTREMENT REPRÉSENTE-T-IL UNE IDENTITÉ UNIQUE ET N’EST-IL PAS UN DOUBLON ?
  • 17. Quelles dimensions de la qualité des données utiliser ?  En passant en revue les dix mesures de qualité des données les plus couramment utilisées. Chaque entreprise/structure/ institution ayant ses propres exigences et indicateurs de performance clés, on devrait peut-être utiliser d’autres indicateurs ou en créer de nouveaux.  La sélection des dimensions de la qualité des données dépend de multiples facteurs, tels que le secteur d’activité de votre entreprise/structure/ institution , la nature de vos données et le rôle qu’elles jouent dans la réussite de vos objectifs.
  • 18. Quelles dimensions de la qualité des données utiliser ? 1. Exactitude ou Validité 2. Fiabilité 3. Précision 4. Exhaustivité 5. Promptitude 6. Intégrité/Sécurité
  • 19. Dimensions de la qualité des données dans le contexte du Burundi (1) Dimension de la qualité des données Définition opérationnelle Exactitude Aussi appelée validité.Les données exactes sont considérées comme étant correctes: Les données mesurent ce qu’elles doivent mesurer. Des données exactes minimisent les erreurs (par exemple, parti pris de l'enregistrement ou de la personne qui conduit l'interview, erreur de transcription, erreur d’échantillonnage) au point de les rendre négligeables. Fiabilité Les données générées par le système d’information d’un programme sont basées sur des protocoles et procédures qui ne changent pas en fonction de la personne qui les utilise, du moment et de la fréquence de leur utilisation. Les données sont fiables parce qu’elles sont mesurées et collectées de manière cohérente. Précision Cela signifie que les données sont assez détaillées. Par exemple, un indicateur requiert la connaissance du nombre d’individus qui ont reçu de l’assistance et des analyses du VIH et reçu les résultats de leurs tests, selon le sexe de la personne. Un système d’information manque de précision s’il n’a pas été conçu pour enregistrer le sexe de l’individu qui a reçu l’assistance et les analyses.
  • 20. Dimensions de la qualité des données dans le contexte du Burundi(2) Dimension de la qualité des données Définition opérationnelle L’exhaustivité L’exhaustivité signifie qu’un système d’information duquel on tire les résultats est inclusif de manière appropriée : Il représente la liste exhaustive des personnes ou unités éligibles et pas juste une fraction de la liste. L’Opportunité Des données sont dites opportunes quand elles sont à jour (actuelles), et quand l’information est disponible à temps. L’opportunité est affectée par: (1) le rythme auquel le système d’information du programme est mis à jour ; (2) le rythme de changement des activités réelles du programme ; et (3) quand l’information est réellement utilisée ou requise. L’Intégrité Les données sont intègres quand le système utilisé pour les générer est protégé de tout parti pris ou manipulation délibérés pour des raisons politiques ou personnelles. Confidentialité La confidentialité signifie que les clients sont assurés que leurs données seront conservées en conformité avec les normes nationales et/ou internationales en matière de données. Cela signifie que les données personnelles ne sont pas divulguées et que les données contenues sur des supports papier et électroniques sont traitées avec un niveau de sécurité approprié (par exemple, gardés dans des armoires fermées et des fichiers protégés par des mots de passe).
  • 21. Data for Implementation (Data.FI) is a five-year cooperative agreement funded by the U.S. President’s Emergency Plan for AIDS Relief through the U.S. Agency for International Development under Agreement No. 7200AA19CA0004, beginning April 15, 2019. It is implemented by Palladium, in partnership with JSI Research & Training Institute (JSI), Johns Hopkins University (JHU) Department of Epidemiology, Right to Care (RTC), Cooper/Smith, IMC Worldwide, Jembi Health Systems and Macro-Eyes, and supported by expert local resource partners. This presentation was produced for review by the U.S. President’s Emergency Plan for AIDS Relief through the United States Ag ency for International Development. It was prepared by Data for Implementation. The information provided [in this document] is not off icial U.S. government information and does not necessarily reflect the views or positions of the U. S. President’s Emergency Plan for AI DS Relief, U.S. Agency for International Development or the United States Government.

Notes de l'éditeur

  1. Précision Lignage (=Fiabilité) Sémantique(=signification) Structure (Modèle, Format) Complétude Cohérence Correct Respect des délais Caractère raisonnable Identifiabilité
  2. Demander aux participants d’énumérer les dimensions qu’ils jugent importantes pour la qualité des données de leurs organisations
  3. La qualité des données a un certain nombre de "dimensions," notamment, 1. Les données sont-elles précises ou valides : Les données mesurent-elles ce qu'elles sont censées mesurer ? Exemple : 2. Les données sont-elles fiables ? Les données sont-elles mesurées de façon constante? Exemple :Un programme change la définition d'une variable et les formulaires de rapportage. Est-ce que cela peut poser un problème de fiabilité ? ¶ Comment ? ¶ 3. Les données sont-elles précises ? La marge de l'erreur dans les données est elle inférieure au changement que le projet a est censé apporter ? ¶ 4. Les données sont-elles complètes ? Les données représentent-elles la liste complète des personnes ou unités éligibles ? ¶ Exemple : ¶ Que peut on dire sur l'exhaustivité si un indicateur est mesuré en se basant sur des données provenant de 3 sur 4 zones éligibles ? ¶ 5. Les données sont-elles promptes ? Les données sont-elles à jour et disponibles à temps afin d'être reportées ? ¶ Exemple : ¶ La date-limite pour soumettre un rapport à un bailleur est le 30 avril, et les données de la moitié des points de service sont reçues le 5 mai. ¶ Les données sont-elles promptes ? ¶ 6. Les données sont-elles intégres ? ¶ Les données sont-elles protégées contre les distorsions ou la manipulation délibérée pour des raisons politiques ou personnelles ? ¶ Exemple : Un supérieur au ministère a demandé à l'équipe d'analyse de données de changer un chiffre rapporté parce qu'il "sait que le chiffre communiqué ne saurait être correct, mais serait plus élevé. Les données sont-elles intégres ?