Donnez votre avis !
                   Depuis votre smartphone, sur :
                    http://notes.mstechdays.fr

    De nombreux lots à gagner toutes les heures !!!
               Claviers, souris et jeux Microsoft…

       Merci de nous aider à améliorer les TechDays

http://notes.mstechdays.fr
Qu'est-ce que la qualité des
                  données
       et comment avoir des données
                 de qualité ?
             DQS nous répond

                                       Mounia BOURDACHE
                                         Consultante en BI
                                          Microsoft France

Serveurs / Entreprise / Réseaux / IT
Chapitre 1

         QU’EST CE QUE LA QUALITÉ DES
         DONNÉES?
Data Quality Services
INTRODUCTION
            Entreprise   Exploite   Information   Fournissent   Données




Data Quality Services
COÛT DE LA NON QUALITÉ DES DONNÉES
       Les données causant disfonctionnement et surcout restent toujours trop nombreuses
       (Coût moyen sur le CA des Entreprises: de 3 à 6%).


       Le traitement des données et leur correction a toujours été un soucis important à gérer.

       En 2011 et 2012 la qualité des données a été:

       - 3e obstacle à la bonne gestion de l’information (après l’accès trop lent à des données sûres et la
          mauvaise intégration des données)
       - 1er obstacle à l’adoption de la BI au sein des Entreprises
       - 1er facteur à l’origine de la mise en œuvre du MDM au sein des Entreprises.



Data Quality Services
QU’EST CE QUE DE MAUVAISES DONNÉES ?
          Données erronées ou
                                 Données en doublon
             incohérentes




Data Quality Services
COMMENT EST MESURÉE LA QUALITÉ DES DONNÉES?
       La qualité des données est mesurée en fonction de leur utilisation.




       Mauvaises données et/ou Mauvaise connaissance de leur utilisation  Mauvais Business
Data Quality Services
Chapitre 2

         COMMENT AVOIR DES DONNÉES DE
         QUALITÉ?
Data Quality Services
DATA QUALITY SERVICES : DQS
        Data Quality Services (DQS) est une solution fondée sur les connaissances.
         Elle permet aux professionnels de l'informatique et aux gestionnaires de
                données d’améliorer facilement la qualité de leurs données
      Des données de bonne qualité sont essentielles à une Business Intelligence efficace

      DQS est un outil intégré à SQL Server 2012, dont les bases de connaissance peuvent
       non seulement être générées mais aussi récupérées via des connecteurs à des tiers
       fournisseurs hébergés sur Azure DataMarket.

      Enrichir les bases de connaissances dans le cloud facilitera l’accès à des données de
       haute qualité.


Data Quality Services
CONCEPT DE LA SOLUTION DQS
                                                     Basée sur une base de connaissance DQ
                        Fondée sur la connaissance   Knowledge Base (DQKB) enrichissable et
                                                     réutilisable
                                                     Les Domaines capturent la
                        Sémantique
                                                     sémantique des données

                                                     Enrichit ses connaissances plus elle
                        Acquiert des connaissances   est utilisée

                                                     Ajout de bases de connaissances générées
                        Ouverte et extensible        et données référencées par des tiers
                                                     fournisseurs

                                                     Interface simple d’utilisation
                        Facile à utiliser

Data Quality Services
LE PROCESS DE DQS




Data Quality Services
MODÉLISATION DQS
                                          Nettoyage des données
        Création (ou import)           (Sources: BDD SQL / xls / csv)
           des Bases de                    Via interface utilisateur
           connaissance               « DQS Client » ou composant SSIS.

        Gestion des Domaines   Standardisation et       Détection des doublons
                               correction des données   et statistiques des
       Données de référence                             données
        Administration des
        règles de
        dédoublonnage




Data Quality Services
COMPOSANTS DE LA SOLUTION DQS
               Modifier, supprimer,
              enrichir et normaliser                            Identifier, réunir ou
                  des données                                  fusionner les entrées
                   inexactes ou                                     connexes.
                  incomplètes.         Nettoyage   Dédoublo-
                                                   nnage




                                       Profilage   Contrôle
               Analyser la source de                            Suivre et contrôler
               données afin d’avoir                             l'état de la qualité
                 un aperçu de la                                   des données.
               qualité des données.




Data Quality Services
PROBLÈMES DE QUALITÉ DE DONNES LES
      PLUS FRÉQUENTS
            Standardisation   Dans une source de données le genre est F, H.
                              Dans l’autre c’est Mr, Mme
            Complétude        Quel est le pourcentage des fiches Clients ne
                              contenant pas d’Email?
            Validité          Est-ce que tous mes codes postaux français hors
                              Corse et Outre-Mer contiennent 5 chiffres?
            Cohérence         Mes clients étudiants ont-ils bien moins de 26
                              ans? Donc peuvent bénéficier des réductions?
            Unicité           Ai-je bien une fiche Client par Client?

Data Quality Services
SOLUTIONS APPORTÉES PAR DQS

                        Civilité   Nom             Num Rue    Nom Rue        Code Postal Ville                Date Naissance
                        Mr         BERNIER Laurent         15 RUE DE LA PAIX               Issy les Mx              01/05/1908
 Nettoyage
                        M.         BERINER Laurent            RUE DE LA PAIE         92130 Saint cloud              01/05/1980




                        Civilité   Nom             Num Rue    Nom Rue        Code Postal Ville                 Date Naissance
                        Monsieur   BERNIER Laurent         15 RUE DE LA PAIX         92130 Issy Les Moulineaux
 Dédou-                 Monsieur   BERINER Laurent            RUE DE LA PAIX         92130 Issy Les Moulineaux       01/05/1980
 blonnage
                        Civilité   Nom             Num Rue    Nom Rue        Code Postal   Ville               Date Naissance
                        Monsieur   BERNIER Laurent         15 RUE DE LA PAIX         92130 Issy Les Moulineaux       01/05/1980




Data Quality Services
DQS PAR LE BIAIS DE SSIS
      Utilisation du
       moteur DQS au
       sein même de
       l’environnement
       SSIS

      Gestion de la
       qualité des
       données en
       même temps que
       le processus
       d’intégration.

Data Quality Services
DÉMONSTRATION

Data Quality Services
Data Quality Services
ANNEXES

Data Quality Services
ARCHITECTURE DQS

Data Quality Services
Client DQ            Azure Datamarket
    Clients
      DQS interface         Catégorisation des services       Catégorisation des           MS DQ
                             de données de référence         données de références       Domains Store
       Découverte et
        gestion des
         bases de                     RD Services API           Réference Data API              Tiers
       connaissances    DQ Server        (Parcourir,            (Parcourir, ajouter,            fournisseurs
                                    paramétrer, Valider…)         mettre à jour…)
         Projets DQ
                        DQ Engine
        Exploration                                              Nettoygae
          base de         Découverte DB      Profilage des
                                                                                 Référentiels
          donnée           connaissance        données         Dédoublonnage

       Composant DQ
           SSIS

     MDS Excel Add in      DQ Active
                                                 Domaine      Domaines             BDC
                            Projects               MS          locaux            publiées
     Composants Excel
       & Dynamics

Data Quality Services
LIENS UTILES

Data Quality Services
BlOG:

                        Blogs.msdn.com/b/dqs


                        VIDEOS:

                        http://technet.microsoft.com/fr-fr/sqlserver/dd353197



                        FORUM:
                        http://social.msdn.microsoft.com/Forums/fr-
                        FR/sqldataqualityservices/threads?Thread%3Asqldataqualityser
                        vices=Microsoft.Forums.Data.Models.DiscussionGroup

Data Quality Services
Développeurs                                                         Pros de l’IT
 http://aka.ms/generation-app       Formez-vous en ligne        www.microsoftvirtualacademy.com

    http://aka.ms/evenements-
                 developpeurs     Retrouvez nos évènements      http://aka.ms/itcamps-france


            Les accélérateurs
                                  Faites-vous accompagner
Windows Azure, Windows Phone,
                                  gratuitement
                   Windows 8


                                   Essayer gratuitement nos     http://aka.ms/telechargements
                                                 solutions IT

         La Dev’Team sur MSDN       Retrouver nos experts       L’IT Team sur TechNet
          http://aka.ms/devteam           Microsoft             http://aka.ms/itteam
Qu’est-ce que la qualité des données et comment avoir des données de qualité ? DQS nous répond.

Qu’est-ce que la qualité des données et comment avoir des données de qualité ? DQS nous répond.

  • 1.
    Donnez votre avis! Depuis votre smartphone, sur : http://notes.mstechdays.fr De nombreux lots à gagner toutes les heures !!! Claviers, souris et jeux Microsoft… Merci de nous aider à améliorer les TechDays http://notes.mstechdays.fr
  • 2.
    Qu'est-ce que laqualité des données et comment avoir des données de qualité ? DQS nous répond Mounia BOURDACHE Consultante en BI Microsoft France Serveurs / Entreprise / Réseaux / IT
  • 3.
    Chapitre 1 QU’EST CE QUE LA QUALITÉ DES DONNÉES? Data Quality Services
  • 4.
    INTRODUCTION Entreprise Exploite Information Fournissent Données Data Quality Services
  • 5.
    COÛT DE LANON QUALITÉ DES DONNÉES Les données causant disfonctionnement et surcout restent toujours trop nombreuses (Coût moyen sur le CA des Entreprises: de 3 à 6%). Le traitement des données et leur correction a toujours été un soucis important à gérer. En 2011 et 2012 la qualité des données a été: - 3e obstacle à la bonne gestion de l’information (après l’accès trop lent à des données sûres et la mauvaise intégration des données) - 1er obstacle à l’adoption de la BI au sein des Entreprises - 1er facteur à l’origine de la mise en œuvre du MDM au sein des Entreprises. Data Quality Services
  • 6.
    QU’EST CE QUEDE MAUVAISES DONNÉES ? Données erronées ou Données en doublon incohérentes Data Quality Services
  • 7.
    COMMENT EST MESURÉELA QUALITÉ DES DONNÉES? La qualité des données est mesurée en fonction de leur utilisation. Mauvaises données et/ou Mauvaise connaissance de leur utilisation  Mauvais Business Data Quality Services
  • 8.
    Chapitre 2 COMMENT AVOIR DES DONNÉES DE QUALITÉ? Data Quality Services
  • 9.
    DATA QUALITY SERVICES: DQS Data Quality Services (DQS) est une solution fondée sur les connaissances. Elle permet aux professionnels de l'informatique et aux gestionnaires de données d’améliorer facilement la qualité de leurs données  Des données de bonne qualité sont essentielles à une Business Intelligence efficace  DQS est un outil intégré à SQL Server 2012, dont les bases de connaissance peuvent non seulement être générées mais aussi récupérées via des connecteurs à des tiers fournisseurs hébergés sur Azure DataMarket.  Enrichir les bases de connaissances dans le cloud facilitera l’accès à des données de haute qualité. Data Quality Services
  • 10.
    CONCEPT DE LASOLUTION DQS Basée sur une base de connaissance DQ Fondée sur la connaissance Knowledge Base (DQKB) enrichissable et réutilisable Les Domaines capturent la Sémantique sémantique des données Enrichit ses connaissances plus elle Acquiert des connaissances est utilisée Ajout de bases de connaissances générées Ouverte et extensible et données référencées par des tiers fournisseurs Interface simple d’utilisation Facile à utiliser Data Quality Services
  • 11.
    LE PROCESS DEDQS Data Quality Services
  • 12.
    MODÉLISATION DQS Nettoyage des données Création (ou import) (Sources: BDD SQL / xls / csv) des Bases de Via interface utilisateur connaissance « DQS Client » ou composant SSIS. Gestion des Domaines Standardisation et Détection des doublons correction des données et statistiques des Données de référence données Administration des règles de dédoublonnage Data Quality Services
  • 13.
    COMPOSANTS DE LASOLUTION DQS Modifier, supprimer, enrichir et normaliser Identifier, réunir ou des données fusionner les entrées inexactes ou connexes. incomplètes. Nettoyage Dédoublo- nnage Profilage Contrôle Analyser la source de Suivre et contrôler données afin d’avoir l'état de la qualité un aperçu de la des données. qualité des données. Data Quality Services
  • 14.
    PROBLÈMES DE QUALITÉDE DONNES LES PLUS FRÉQUENTS Standardisation Dans une source de données le genre est F, H. Dans l’autre c’est Mr, Mme Complétude Quel est le pourcentage des fiches Clients ne contenant pas d’Email? Validité Est-ce que tous mes codes postaux français hors Corse et Outre-Mer contiennent 5 chiffres? Cohérence Mes clients étudiants ont-ils bien moins de 26 ans? Donc peuvent bénéficier des réductions? Unicité Ai-je bien une fiche Client par Client? Data Quality Services
  • 15.
    SOLUTIONS APPORTÉES PARDQS Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance Mr BERNIER Laurent 15 RUE DE LA PAIX Issy les Mx 01/05/1908 Nettoyage M. BERINER Laurent RUE DE LA PAIE 92130 Saint cloud 01/05/1980 Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance Monsieur BERNIER Laurent 15 RUE DE LA PAIX 92130 Issy Les Moulineaux Dédou- Monsieur BERINER Laurent RUE DE LA PAIX 92130 Issy Les Moulineaux 01/05/1980 blonnage Civilité Nom Num Rue Nom Rue Code Postal Ville Date Naissance Monsieur BERNIER Laurent 15 RUE DE LA PAIX 92130 Issy Les Moulineaux 01/05/1980 Data Quality Services
  • 16.
    DQS PAR LEBIAIS DE SSIS  Utilisation du moteur DQS au sein même de l’environnement SSIS  Gestion de la qualité des données en même temps que le processus d’intégration. Data Quality Services
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
    Client DQ Azure Datamarket Clients DQS interface Catégorisation des services Catégorisation des MS DQ de données de référence données de références Domains Store Découverte et gestion des bases de RD Services API Réference Data API Tiers connaissances DQ Server (Parcourir, (Parcourir, ajouter, fournisseurs paramétrer, Valider…) mettre à jour…) Projets DQ DQ Engine Exploration Nettoygae base de Découverte DB Profilage des Référentiels donnée connaissance données Dédoublonnage Composant DQ SSIS MDS Excel Add in DQ Active Domaine Domaines BDC Projects MS locaux publiées Composants Excel & Dynamics Data Quality Services
  • 22.
  • 23.
    BlOG: Blogs.msdn.com/b/dqs VIDEOS: http://technet.microsoft.com/fr-fr/sqlserver/dd353197 FORUM: http://social.msdn.microsoft.com/Forums/fr- FR/sqldataqualityservices/threads?Thread%3Asqldataqualityser vices=Microsoft.Forums.Data.Models.DiscussionGroup Data Quality Services
  • 24.
    Développeurs Pros de l’IT http://aka.ms/generation-app Formez-vous en ligne www.microsoftvirtualacademy.com http://aka.ms/evenements- developpeurs Retrouvez nos évènements http://aka.ms/itcamps-france Les accélérateurs Faites-vous accompagner Windows Azure, Windows Phone, gratuitement Windows 8 Essayer gratuitement nos http://aka.ms/telechargements solutions IT La Dev’Team sur MSDN Retrouver nos experts L’IT Team sur TechNet http://aka.ms/devteam Microsoft http://aka.ms/itteam

Notes de l'éditeur

  • #5 Toute Entreprise exploite de l’information pour fonctionner. Cette information se base sur des données. Comment les entreprises pourraient-elles fonctionner correctement si leurs données sont erronées ou incohérentes?
  • #6 Les données représentent le patrimoine informationnel des entreprises. Pourtant, leur qualité fait rarement l’objet d’un processus industrialisé.Les Responsables Qualité de données évaluent leurs coûts de non qualité en production de 3 à 6% du chiffre d'affaire.
  • #7 La qualitéd’unedonnéepeutêtredéfinie, mesurée, administrée à travers diverses dimensions et paramètrestels que la précision, la cohérence, l'exhaustivité, les doublons.
  • #8 Cequ’ilfaut savoir c’estque lestermes “Qualité de données” ne sont pas absolus. Il n’y a pas de mauvaisesou de bonnes données sil’on ne connait pas leurutilisation. Le degrès de correction des données depend de leur usage. Çan’estqu’unefois la connaissance des données et de leurutilisationacquisequ’ilest possible de dire si les données sontbonnesoumauvaises pour l’utisationdésirée.La qualité des données est subjective, cen’est pas une science exacte, elle depend de l’usagequel’onprévoit pour les données.
  • #9 Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • #11 Base de connaissance existante sur AzureDataMarketOu créées
  • #12 DQS effectue un rapprochement de données en comparant chaque ligne de données source aux données existantes dans une base de connaissances, et en produisant une probabilité pour que les lignes soient similaires (des valeurs équivalentes, mais saisies dans un format ou un style différent sont alors unifiées). Cette étape est majeure dans un projet de qualité des données, il est préférable d'effectuer après le nettoyage des données, de sorte que les données rapprochées soient valides et les autres rejetées dans une table d’erreurs.DQS fournit aussi des fonctionnalités pour réduire la duplication des données et améliorer la précision des données provenant d’une source de données. Ces fonctionnalités peuvent être utilisées au travers d’une application riche par son interface utilisateur « DQS Client » ou bien d’un composant SSIS.Un suivi de l’activité de qualité est également possible dans l’outil DQS Client ainsi que la possibilité d’afficher des rapports d’analyse sur les données sources pour connaitre leurs degrés de qualité.
  • #22 BDC : base de connaissance