Il s'agit d'une présentation des dimensions contextuelles et internes de la qualite des données. ceci permettra aux lecteurs d'aller au delà de la routine pour comprendre les différentes dimensions de la qualité des données. On ajoute la sécurité des données pour rendre plus intéressante dans la qualité des données.
1. ATELIER DE FORMATION SUR LA QUALITÉ ET
L'AMÉLIORATION DE LA QUALITÉ DES DONNÉES
Dimensions de la qualité des données
2. Dimensions de la qualité des données
La signification de la qualité des données varie en fonction de l’utilisation
que l’on souhaite en faire. Par exemple, dans certains cas, la précision des
données est plus importante que leur exhaustivité, alors que dans d’autres
cas, c’est l’inverse.
Ce concept introduit l’idée de dimensions de la qualité des données – ce qui
signifie simplement que la qualité des données peut être mesurée de
différentes manières. Les dimensions de la qualité des données présentent
une liste de mesures qui peuvent aider à évaluer l’aptitude des données
pour toute utilisation prévue.
3. Combien y a-t-il de dimensions de la qualité des
données ?
Certains mettent en avant six dimensions de la qualité des données, tandis
que d’autres parlent de huit, voire de dix dimensions de qualité des données.
Techniquement parlant, toutes les mesures de la qualité des données
relèvent de deux grandes catégories : la première concerne les
caractéristiques intrinsèques des données, tandis que la seconde porte sur
leurs caractéristiques contextuelles.
4. Combien y a-t-il de dimensions de la qualité des
données ?
1. Précision
2. Lignage (=Fiabilité)
3. Sémantique(=signification)
4. Structuré (Modèle, Format)
5. Complétude
6. Cohérence
7. Correct
8. Respect des délais
9. Caractère raisonnable
10. Identifiabilité
5. Dimensions intrinsèques de la qualité
Ces dimensions permettent d’apprécier et d’évaluer directement la valeur
des données – au niveau granulaire ; leur signification, leur disponibilité,
leur domaine, leur structure, leur format, leurs métadonnées, etc. Ces
dimensions ne tiennent pas compte du contexte dans lequel la valeur a été
stockée, comme sa relation avec d’autres attributs ou l’ensemble de
données dans lequel elle réside. Elles sont au nombre de quatre.
6. 1. Précision
L’exactitude des valeurs des données est
mesurée en les vérifiant par rapport à
une source connue d’informations
correctes. Cette mesure peut être
complexe si plusieurs sources contiennent
des informations correctes. Dans ce cas,
vous devez sélectionner celle qui
correspond le mieux à votre domaine et
calculer le degré de concordance de
chaque valeur de données avec la source.
Exemple de valeurs de données précises
Considérons une base de données
d’employés qui contient le numéro de
contact des employés comme attribut. Un
numéro de téléphone exact est celui qui
est correct et qui existe dans la réalité.
Vous pouvez vérifier tous les numéros de
téléphone de votre base de données des
employés en les comparant à une base de
données officielle contenant une liste de
numéros de téléphone valides.
DANS QUELLE MESURE LES VALEURS DES DONNÉES REPRÉSENTENT-ELLES LA RÉALITÉ/LA JUSTESSE ?
7. 2. Fiabilité
La lignée des valeurs des données
est vérifiée ou testée en validant
la source d’origine, et/ou toutes
les sources qui ont mis à jour les
informations au fil du temps. Il
s’agit d’une mesure importante car
elle prouve la fiabilité des données
capturées, et leur évolution dans
le temps..
Exemple de lignée de valeurs de
données
Dans l’exemple ci-dessus, les numéros de
contact des employés sont dignes de
confiance s’ils proviennent d’une source
valide. Et la source la plus valable pour ce
type d’information est l’employé lui-même –
que les données soient saisies la première fois
ou mises à jour au fil du temps. Par ailleurs,
si les numéros de contact ont été déduits
d’un annuaire téléphonique public, cette
source d’origine est certainement douteuse et
peut potentiellement contenir des erreurs.
DANS QUELLE MESURE LA SOURCE D’ORIGINE DES VALEURS DES DONNÉES EST-ELLE FIABLE ?
8. 3. Sémantique
Pour garantir la qualité des données, la valeur
des données doit être sémantiquement correcte,
c’est-à-dire liée à sa signification, notamment
dans le contexte de l’organisation ou du service
où elle est utilisée. Les informations sont
généralement échangées entre les différents
services et processus d’une entreprise. Dans ce
cas, les parties prenantes et les utilisateurs des
données doivent s’accorder sur la signification de
tous les attributs impliqués dans l’ensemble de
données, afin qu’ils puissent être vérifiés
sémantiquement.
Exemple de valeurs de données sémantiquement
correctes
Votre base de données des employés peut avoir
deux attributs qui stockent les numéros de contact
des employés, à savoir Numéro de téléphone 1 et
Numéro de téléphone 2. Une définition convenue
des deux attributs pourrait être que le numéro de
téléphone 1 est le numéro de portable personnel de
l’employé, tandis que le numéro de téléphone 2 est
son numéro de téléphone résidentiel.
Il est important de noter que la mesure
d’exactitude validera l’existence et la réalité de
ces deux numéros, mais que la mesure sémantique
garantira que ces deux numéros sont fidèles à leur
définition implicite – c’est-à-dire que le premier est
un numéro de portable, tandis que le second est un
numéro de téléphone résidentiel.
LES VALEURS DES DONNÉES SONT-ELLES FIDÈLES À LEUR SIGNIFICATION ?
9. 4. Structuré
L’analyse structurelle consiste à vérifier la
représentation des valeurs des données – c’est-
à-dire que les valeurs ont un modèle et un
format valides. Il est préférable que ces
contrôles soient effectués et appliqués lors de
la saisie et de l’enregistrement des données,
de sorte que toutes les données entrantes
soient d’abord validées et, si nécessaire,
transformées avant d’être stockées dans
l’application.
Exemple de valeurs de données
structurellement correctes
Dans l’exemple ci-dessus de la base de données des
employés, toutes les valeurs de la colonne du numéro
de téléphone 1 doivent être correctement structurées
et formatées. Un exemple de numéro de téléphone mal
structuré est le suivant : 134556-7(9080. Il est toutefois
possible que le chiffre lui-même (sans le trait d’union
et les parenthèses supplémentaires) soit exact et
sémantiquement correct. Mais le format et le modèle
corrects du numéro devraient être :
+1-345-567-9080.
LES VALEURS DES DONNÉES EXISTENT-ELLES DANS LE MODÈLE ET/OU LE FORMAT CORRECT
10. Dimensions contextuelles de la qualité des
données
Ces dimensions apprécient et évaluent les données dans leur contexte
global – par exemple, en considérant toutes les valeurs de données d’un
attribut ensemble, ou les valeurs de données regroupées dans des
enregistrements, etc. Ces dimensions se concentrent sur les relations entre
les différents composants des données et leur adéquation aux attentes en
matière de qualité des données.
Ces dimensions de la qualité des données qui relèvent de la catégorie
contextuelle sont au nombre de six
11. 5. Complétude
L’exhaustivité définit le degré auquel les valeurs de
données nécessaires sont remplies et ne sont pas laissées
en blanc. Elle peut être calculée verticalement (au niveau
des attributs) ou horizontalement (au niveau des
enregistrements). En général, les champs sont marqués
comme obligatoires/exigés pour garantir l’exhaustivité
d’un ensemble de données. Lors du calcul de
l’exhaustivité, ses trois différents types doivent être pris
en compte pour garantir l’exactitude des résultats :
Champ obligatoire qui ne peut être laissé vide ; par
exemple, l’identifiant national d’un employé.
Champ facultatif qui ne doit pas nécessairement être
rempli ; par exemple, le champ « Hobbies » d’un
employé.
Champ inapplicable qui devient non pertinent en fonction
du contexte de l’enregistrement et qui doit être laissé
vide ; par exemple, le nom du conjoint pour un individu
non marié.
Exemple de données complètes
Un exemple d’exhaustivité verticale consiste à
calculer le pourcentage d’employés pour lesquels le
numéro de téléphone 1 est fourni. Et l’exemple
d’exhaustivité horizontale consiste à calculer le
pourcentage d’informations complètes pour un
employé particulier ; par exemple, les données d’un
employé peuvent être complètes à 80 %, mais il
manque son numéro de contact et son adresse
résidentielle.
VOS DONNÉES SONT-ELLES AUSSI COMPLÈTES QUE VOUS LE SOUHAITEZ ?
12. 6. Cohérence
La cohérence vérifie si les valeurs des données
stockées pour le même enregistrement dans des
sources disparates sont exemptes de toute
contradiction et sont exactement les mêmes,
tant en termes de signification que de structure
et de format.
Des données cohérentes permettent d’établir
des rapports uniformes et précis pour toutes les
fonctions et opérations de votre entreprise. La
cohérence ne concerne pas seulement la
signification des valeurs des données, mais aussi
leur représentation ; par exemple, lorsque des
valeurs ne sont pas applicables ou sont
indisponibles, des termes cohérents doivent
être utilisés pour représenter l’indisponibilité
des données dans toutes les sources.
Exemples de données cohérentes.
Les informations sur les employés sont
généralement stockées dans les applications
de gestion des RH, mais la base de données
doit être partagée ou répliquée pour d’autres
services, comme la paie ou les finances. Pour
garantir la cohérence, tous les attributs
stockés dans les bases de données doivent
avoir les mêmes valeurs. Sinon, une différence
dans le numéro de compte bancaire ou
d’autres champs critiques de ce type peut
devenir un énorme problème.
DES MAGASINS/BASES DE DONNÉES DISPARATES ONT-ILS LES MÊMES VALEURS DE DONNÉES POUR LES
MÊMES ENREGISTREMENTS ?
13. 7. Actualisées
L’actualité concerne la mesure dans laquelle les
attributs des données sont du bon âge dans le
contexte de leur utilisation. Cette mesure
permet de maintenir les informations à jour et
en conformité avec le monde actuel, de sorte
que vos instantanés de données ne datent pas
de plusieurs semaines ou mois, ce qui vous
conduirait à présenter et à fonder des décisions
critiques sur des informations périmées.
Pour garantir l’actualité de votre ensemble de
données, vous pouvez définir des rappels pour la
mise à jour des données, ou fixer des limites à
l’âge d’un attribut, afin de garantir que toutes
les valeurs sont soumises à un examen et à une
mise à jour dans un délai donné.
Exemple de données à jour .
Les coordonnées de votre employé doivent
être revues régulièrement pour vérifier si
quelque chose a été récemment modifié et
doit être mis à jour dans le système.
VOS DONNÉES SONT-ELLES RAISONNABLEMENT À JOUR ?
14. 8. Respect des délais
La rapidité d’exécution mesure le temps
nécessaire pour accéder à l’information
demandée. Si vos requêtes de données prennent
trop de temps pour aboutir, il se peut que vos
données ne soient pas bien organisées, reliées,
structurées ou formatées.
L’actualité mesure également la rapidité avec
laquelle les nouvelles informations sont
disponibles pour être utilisées dans toutes les
sources. Si votre entreprise utilise des processus
complexes et fastidieux pour stocker les
données entrantes, les utilisateurs peuvent finir
par interroger et utiliser d’anciennes
informations à certains moments.
Exemple de respect des délais.
Pour garantir la rapidité d’exécution, vous
pouvez vérifier le temps de réponse de votre
base de données des employés. En outre, vous
pouvez également tester le temps nécessaire
pour que les informations mises à jour dans
l’application RH soient reproduites dans
l’application de paie, et ainsi de suite.
DANS QUEL DÉLAI LES DONNÉES DEMANDÉES SONT-ELLES MISES À DISPOSITION/TRANSMISES?
15. 9. Raisonable/ Correct
Le caractère raisonnable mesure la mesure dans
laquelle les valeurs des données ont un type et
une taille raisonnables ou compréhensibles. Par
exemple, il est courant de stocker des nombres
dans un champ de chaîne alphanumérique, mais
la rationalité fera en sorte que si un attribut ne
stocke que des nombres, il doit être de type
numérique.
De plus, reasonability impose également une
limite maximale et minimale de caractères aux
attributs, de sorte qu’il n’y ait pas de chaînes
de caractères inhabituellement longues dans la
base de données. La mesure de raisonnabilité
réduit l’espace pour les erreurs en appliquant
des contraintes sur le type de données et la
taille d’un attribut.
Exemple de caractère raisonnable
Le champ Numéro de téléphone 1 – s’il est
enregistré sans les traits d’union et les caractères
spéciaux – doit être défini comme numérique et
comporter une limite maximale de caractères afin
que des caractères alphanumériques
supplémentaires ne soient pas ajoutés par erreur.
LES VALEURS DES DONNÉES ONT-ELLES LE TYPE ET LA TAILLE CORRECTS ?
16. 10. Identifiabilité
L’identifiabilité calcule le degré auquel les
enregistrements de données sont identifiables
de manière unique et ne sont pas des
doublons les uns des autres.
Pour garantir l’identifiabilité, un attribut
d’identification unique est stocké dans la
base de données pour chaque
enregistrement. Mais dans certains cas,
comme celui des organismes de santé, les
informations personnelles identifiables (PII)
sont supprimées pour préserver la
confidentialité des patients. C’est là que vous
pouvez avoir besoin d’utiliser des techniques
de rapprochement floues pour comparer,
rapprocher et fusionner des enregistrements
Exemple d’identifiabilité
Un exemple d’identifiabilité consiste à exiger
que chaque nouvel enregistrement dans la
base de données des employés contienne un
numéro d’identification unique qui permettra
de les identifier.
CHAQUE ENREGISTREMENT REPRÉSENTE-T-IL UNE IDENTITÉ UNIQUE ET N’EST-IL PAS UN DOUBLON ?
17. Quelles dimensions de la qualité des
données utiliser ?
En passant en revue les dix mesures de qualité des données les plus
couramment utilisées. Chaque entreprise/structure/ institution ayant ses
propres exigences et indicateurs de performance clés, on devrait peut-être
utiliser d’autres indicateurs ou en créer de nouveaux.
La sélection des dimensions de la qualité des données dépend de multiples
facteurs, tels que le secteur d’activité de votre entreprise/structure/
institution , la nature de vos données et le rôle qu’elles jouent dans la
réussite de vos objectifs.
18. Quelles dimensions de la qualité des
données utiliser ?
1. Exactitude ou Validité
2. Fiabilité
3. Précision
4. Exhaustivité
5. Promptitude
6. Intégrité/Sécurité
19. Dimensions de la qualité des données dans le
contexte du Burundi (1)
Dimension de
la qualité des
données Définition opérationnelle
Exactitude
Aussi appelée validité.Les données exactes sont considérées comme étant correctes: Les
données mesurent ce qu’elles doivent mesurer. Des données exactes minimisent les erreurs
(par exemple, parti pris de l'enregistrement ou de la personne qui conduit l'interview, erreur
de transcription, erreur d’échantillonnage) au point de les rendre négligeables.
Fiabilité
Les données générées par le système d’information d’un programme sont basées sur des
protocoles et procédures qui ne changent pas en fonction de la personne qui les utilise, du
moment et de la fréquence de leur utilisation. Les données sont fiables parce qu’elles sont
mesurées et collectées de manière cohérente.
Précision
Cela signifie que les données sont assez détaillées. Par exemple, un indicateur requiert la
connaissance du nombre d’individus qui ont reçu de l’assistance et des analyses du VIH et reçu
les résultats de leurs tests, selon le sexe de la personne. Un système d’information manque de
précision s’il n’a pas été conçu pour enregistrer le sexe de l’individu qui a reçu l’assistance et
les analyses.
20. Dimensions de la qualité des données dans le
contexte du Burundi(2)
Dimension de la
qualité des données Définition opérationnelle
L’exhaustivité
L’exhaustivité signifie qu’un système d’information duquel on tire les résultats est inclusif de
manière appropriée : Il représente la liste exhaustive des personnes ou unités éligibles et pas
juste une fraction de la liste.
L’Opportunité
Des données sont dites opportunes quand elles sont à jour (actuelles), et quand l’information
est disponible à temps. L’opportunité est affectée par: (1) le rythme auquel le système
d’information du programme est mis à jour ; (2) le rythme de changement des activités
réelles du programme ; et (3) quand l’information est réellement utilisée ou requise.
L’Intégrité Les données sont intègres quand le système utilisé pour les générer est protégé de tout parti
pris ou manipulation délibérés pour des raisons politiques ou personnelles.
Confidentialité
La confidentialité signifie que les clients sont assurés que leurs données seront conservées en
conformité avec les normes nationales et/ou internationales en matière de données. Cela
signifie que les données personnelles ne sont pas divulguées et que les données contenues
sur des supports papier et électroniques sont traitées avec un niveau de sécurité approprié
(par exemple, gardés dans des armoires fermées et des fichiers protégés par des mots de
passe).
21. Data for Implementation (Data.FI) is a five-year cooperative agreement funded by the U.S. President’s Emergency Plan
for AIDS Relief through the U.S. Agency for International Development under Agreement No. 7200AA19CA0004,
beginning April 15, 2019. It is implemented by Palladium, in partnership with JSI Research & Training Institute (JSI),
Johns Hopkins University (JHU) Department of Epidemiology, Right to Care (RTC), Cooper/Smith, IMC Worldwide,
Jembi Health Systems and Macro-Eyes, and supported by expert local resource partners.
This presentation was produced for review by the U.S. President’s Emergency Plan for AIDS Relief through the United States Ag ency for
International Development. It was prepared by Data for Implementation. The information provided [in this document] is not off icial U.S.
government information and does not necessarily reflect the views or positions of the U. S. President’s Emergency Plan for AI DS Relief,
U.S. Agency for International Development or the United States Government.
Demander aux participants d’énumérer les dimensions qu’ils jugent importantes pour la qualité des données de leurs organisations
La qualité des données a un certain nombre de "dimensions," notamment,
1. Les données sont-elles précises ou valides : Les données mesurent-elles ce qu'elles sont censées mesurer ?
Exemple :
2. Les données sont-elles fiables ? Les données sont-elles mesurées de façon constante?
Exemple :Un programme change la définition d'une variable et les formulaires de rapportage.
Est-ce que cela peut poser un problème de fiabilité ? ¶ Comment ? ¶
3. Les données sont-elles précises ?
La marge de l'erreur dans les données est elle inférieure au changement que le projet a est censé apporter ? ¶
4. Les données sont-elles complètes ? Les données représentent-elles la liste complète des personnes ou unités éligibles ? ¶
Exemple : ¶ Que peut on dire sur l'exhaustivité si un indicateur est mesuré en se basant sur des données provenant de 3 sur 4 zones éligibles ? ¶
5. Les données sont-elles promptes ? Les données sont-elles à jour et disponibles à temps afin d'être reportées ? ¶
Exemple : ¶ La date-limite pour soumettre un rapport à un bailleur est le 30 avril, et les données de la moitié des points de service sont reçues le 5 mai. ¶ Les données sont-elles promptes ? ¶
6. Les données sont-elles intégres ? ¶ Les données sont-elles protégées contre les distorsions ou la manipulation délibérée pour des raisons politiques ou personnelles ? ¶
Exemple : Un supérieur au ministère a demandé à l'équipe d'analyse de données de changer un chiffre rapporté parce qu'il "sait que le chiffre communiqué ne saurait être correct, mais serait plus élevé. Les données sont-elles intégres ?