This presentation allows to get familiarized with the main concepts of data cleaning, related tools, and best practices in the curation process. The second part will consist in a theoretical/practical exercise with examples of technical and consistency validation checks
---
Cette présentation permets aux participants de se familiariser avec les concepts principaux du nettoyage de données, les outils associés, et les meilleures pratiques utilisées dans le processus de curation. La seconde partie consistera en un exercice théorique/pratique avec des exemples de validation technique et de vérification de la cohérence.
4. What is data cleaning?
A process used to improve the
quality through correction of detected errors and omissions
• Define and determine error types
• Search and identify error instances
• Correct the errors
• Document error instances and error types
• Modify data entry procedures to reduce future errors
5. • Définir et déterminer les erreurs types
• Chercher et identifier les occurrences d’erreurs
• Corriger les erreurs
• Documenter les cas d’erreurs et d’erreurs types
• Modifier le procédé d’entrée de données afin de réduire les erreurs futures
Qu'est-ce que c'est le nettoyage de données ?
Un procédé utilisé pour
améliorer la qualité en corrigeant les erreurs détectées et les oublis
6. The need for Data Cleaning
Is centred around improving the quality of
data to make them
“fit for use”
7. La nécessité du Nettoyage des Données
Englobe l’amélioration de la qualité des
données afin de les rendre
“adaptées à l’emploi”