SlideShare une entreprise Scribd logo
1  sur  22
Présentation du concept
Data Vault




        Évolution vers les processus
                  Diane Mathews – DCEIDMD 2012-05-07
Intelligence d’affaire ou « BI »                            2




                           De façon traditionnelle, le
                           « BI » est représenté de
                           cette façon.
                           Le terme Entrepôt de
                           données (ou base de
                           données décisionnelle, ou
                           encore data warehouse)
                           désigne une base de
                           données utilisée pour
                           collecter, ordonner,
                           journaliser et stocker des
                           informations provenant de
                           bases de données
                           opérationnelles et fournir une
                           aide à la décision en
                           entreprise. (Wiki.)
Ce que recherche le « BI »                                      3



Le « BI » présente au client une information :
 Extraite de plusieurs sources
 Synchronisées entre plusieurs sources
 Filtrées et épurées
 Agrégées, dérivées, interprétés selon un domaine d’affaires
 Cohérente et juste (Single view AND single source of the
 truth)


Le « BI » a besoin d’agilité
 Obtenir l’information rapidement des sources
 Adapter facilement le contexte d’affaire pour les fonctions
 d’analyses
 Suivre l’évolution des processus fonctionnels tout en
 conservant l’historique des données
Processus associés aux entrepôts                                  4




 Le chargement des données vers un entrepôt se fait via des
 processus nommés, ETC.
 Le contenue et la modélisation des structures de données
 d’un entrepôt dépendent de la stratégie adoptée par
 l’entreprise.
 Certains adoptent un modèle relationnel, dimensionnel ou
 encore des « data stores » dont la structure est identique aux
 applications opérationnelles.
Le processus complet jusqu’au « BI »   5
Évolution des notions d’entrepôt de données                                                                                                         6


     Historique des techniques liées à l’entrepôt
                                                     Software Engineer
                                                      Best job in US
          Logical Data Warehouse

     Publication de l’architecture                          Wall Street              General Mills et               Faits et Dimensions
                                                     Gartner Journal              l'Université Dartmouth
              Data Vault

         Data Vault                                 Dan
                                                                                                                             Model relationnel
 Implémenté depuis plus de 10                     Linstedt                 1960                        Edgar F. Codd
                                               Dan
        ans et stable
                                             Linstedt           2015                1965
  Architecture for the Next       Bill Inmon                                                                              Base de données
    Generation of Data          Derek Strauss                2010                           1970                            relationnelle
                               Genia Neushloss ,
        Warehousing             Elsevier Press

  Taping in unstructured             Bill Inmon
                                                                                                            Oracle V2    « Data Base Design »
           Data                                          2005                                 1975
    Modeling in UML                                                                                         Bill Inmon        Base de données
                                     Peter Coad                                                                                 managériale
        Color
                                     Bill Inmon              2000                           1980                           (exclusivement pour la
  Corporate Information            Claudia Imhoff                                                          Teradata
                                                                                                                             prise de décision )
         Factory                    Ryan Sousa
                                John Wiley and Sons
                                                                    1995             1985
      Data Vault
     CMMI niveau 5                          Dan                             1990                                                  Terme « Data
                                          Linstedt                                                                                Warehouse »
    Data Warehouse toolkit                        Ralph                                           Barry Devlin et
                                                  Kimball                                          Paul Murphy
        (dimensionnel )
                                                        Peter Coad et                         Red Brick
         Analyse Orientée Objet                           Ed Yourdon Dan Linstedt             Systems                              Red Brick
                                                                                                                                   Warehouse
           Problématique de l’intégration des données
Problématique d’intégration                                     7




                            Avec le temps, les règles
                            d’affaires se multiplient au
             « BI »
                            niveau de l’entrepôt selon les
                            besoins du « BI ». Au niveau du
                            « BI » plusieurs règles
                            d’intégration et de normalisation
          Entrepôt(s)       font sensiblement les mêmes
                            choses. La maintenance et
                            l’évolution deviennent lourdes et
          Applications      coûteuses... d’autres « bases »
         Opérationnelles    « BI » plus agiles sont créées.



                                                       ...
                        +         +
Une vision qui change du 2D au 3D                          8




                                      Processus




              Données        3D                   « BI »




    Données             2D        « BI »
La donnée, élément central du « BI » ?                           9




Lors qu’une donnée est créée par un processus, elle est créée,
elle ne change pas.

Ce qui change, ce sont les processus qui créent ou manipulent
la données.

L’entrepôt doit maintenir un historique des données sur
plusieurs années. Comment fait-on pour suivre l’évolution des
systèmes en conservant une seule version de la « vérité » ou
une seule « source » de la vérité ?
L’approche Data Vault ?                                             10




 Jusqu’à présent, les entrepôts étaient uniquement modélisés
 selon une architecture de données.
 Data Vault introduit une notion d’architecture de processus. Les
 structures de données sont déterminées selon une modélisation
 relationnelle ET selon une notion de processus selon la
 "fonction" de la donnée.
 La structure du Data Vault a été conçue en considérant
 l’évolution dans son contexte technique et non dans le contexte
 affaires. Le changement des processus et des structures de
 données est ciblé plutôt que les changements et l'évolution des
 fonctions d’affaires.
 Les étapes d’historisation des données, d’intégration et
 normalisation pour l’entreprise et la présentation des données
 sont traitées de façon distincte.
CMMI Capacity Maturity Model Integration   11




L’architecture de
processus est devenue
nécessaire lorsque l’armée
américaine a exigé un
entrepôt de données qui
respectait le CMMI niveau
5. Les processus sont
mesurables, standardisés,
avec une gestion
proactive, réutilisables et
prévisibles.
Les processus Data Vault                                                                     12


                            Niveau Présentation ▼

                                              4
                             Data Vault               Comptoirs
                           « Navigation »                       4
                   3                                    1 – Chargement des données
                                                        fondation , formatage technique et
 Niveau Affaires ►          Data Vault                  assignation des clés de voute .
                                                        2 – Application des règles
                            « Affaire »                 d’affaires pour la normalisation ,
                                                  2
                                                        l’intégration et la dérivation
                                                        d’information au niveau
                       1                                d’entreprise
                             Data Vault                 3 – Liens de « navigation » vers
  Applications
                                                        les différentes structure du Data
 Opérationnelles           « Fondation »                Vault selon des besoins d’affaires
                                                        spécifiques .
                           Niveau Données ▲             4 – Exemple d’extraction vers un
                                                        comptoirs de données


Cette approche correspond à l’architecture 3 tiers utilisée dans la
conception des processus WEB. Les règles techniques, les règles
d’affaires et les règles de présentation sont traitées de façon distinct.
L’approche orientée objet                                           13




Peter Coad en 1999 a introduit la modélisation selon les
couleurs UML.
En ingénierie des logiciels, l’expérience a prouvé que toutes les
classes d’objets d’un modèle d’affaires sont bien décrites par
quatre archétypes
Structure de données Data Vault                                                       14


                         « HUB » désigne une clé d’affaire que le client
                         « affaires » peut identifier, nommer et décrire.
                         « LINK » est un lien entre plusieurs clés d’affaires (HUB)
                         « Satellite » représente les données associées à un
                         « HUB » ou à un « LINK ». Seul le « satellite » à une
                         notion de temps.

                         Cette structure correspond à la définition de l’approche
                         orientée objet (Modeling in UML color).
                         Le « HUB » correspond à l’archétype Personne, lieux et
                         choses.
                         Le « LINK » correspond à rôle et « liens »
                         Le « Satellite » correspond à un évènement

                         Les descriptions (tables de références) sont externes à
    Description
    une description de
                         Data Vault. Ils sont gérés par des référentiesl ou des
    type catalogue       MDM. L’historique peut être maintenue dans le Data
                         Vault.
Règle de base d’une fondation Data Vault                        15




Les données sont normalisées (3 NF) AVANT le
 chargement. Les données d’un « Satellite » ne dépendent
 que de la clé du satellite.
Une clé affaires est définie qu’une seule fois dans une
 structure de données.
Les données ne sont pas filtrées, corrigées ni interprétées.
 Toutes les données ont une traçabilité jusqu’à la source
 originale.
Les données ne sont jamais modifiées.
Les clés de la voute ne sont jamais utilisées hors de la
 voute.
L’accès à la voute est restreint, elle n’a pas une structure
 répondant directement à une exploitation final des données.
Avantages de Data Vault                                 16




                   Au chargement, il n’y a pas de
                   dépendance entre les fichiers de
                   données.
                   L’intégration des données se fait
                   sous un mode passif. Les données
                   d’un satellite se retrouvent sous
                   les mêmes HUB et LINK lorsqu’il a
                   les mêmes structures de clés.
                   Lorsqu’une règle d’affaires
                   change, les structures en place ne
                   sont pas modifiées. De nouvelles
                   structures sont ajoutées sans
                   impact à l’existant. La
                   «navigation» vers les données est
                   modifiée.
Inconvénients de Data Vault                                               17




   Un seul fichier génère plusieurs tables à charger.
    • Le prix de l’indépendance des chargements
   La voute n’est pas accessible facilement
    • C’est une représentation du FAIT, il est organisé selon la
      source de données et non la destination finale et il ne change
      pas.
   Data Vault génère beaucoup de cédules de chargement
    • Lors de changement, l’impact ne touche que les composantes
      ciblées et n’a pas de répercussions sur les autres processus.
      L’exécution se fait transversale selon les données et non en silo
      selon les relations (modèle relationnel et dimensionnel).
   Data Vault n’est pas un modèle exploitable
    • Vrai, Data Vault est une fondation pour l’historisation des
      données. Pour avoir une version exploitable, il faut créer la
      partie « navigation » avec les besoins d’affaires précis.
Est-ce une solution miracle ?                                      18




 Non, Data Vault n’est pas recommandé si vous avez qu’une
 seule source de données opérationnelles.

 Data Vault ne règle pas des besoins d’affaires non définis.
 Data Vault ne corrige pas les règles d’affaires en erreur lors
 du chargement de la fondation. Ce type de traitement est
 déplacé vers le niveau « affaires ».

 Data Vault exige une modélisation de données très
 différente de ce qui est connu aujourd’hui (modèle
 relationnel et dimensionnel). Le modèle logique est réalisé
 en 3NF, le modèle physique Data Vault dépend des
 spécifications du chargement.
Pourquoi choisir Data Vault ?                                   19




  1) Répond aux besoins des grandes entreprises avec des
     environnements TI complexes.
  2) La capacité d’évolution des processus sans impact aux
     données.
  3) Un effort de support réduit. Les anomalies sont adressés
     au niveau affaires. (Soit via une correction dans les
     systèmes opérationnels ou via la couche « affaire » du
     Data Vault)
  4) La facilité de conception. (Patrons fonctionnels)
  5) L’avantage de la traçabilité.
  6) La réutilisation et la rapidité d’implémentation de
     nouvelles composantes.
Une approche progressive                                           20




Le plus grand des avantages de Data Vault est
l’application d’une approche simple, mesurable et
constante pour la conception et l’implémentation d’un
dépôt de données. Il a la capacité d’être très petit et être
composé que de deux tables et peut évoluer vers un
système de très grande capacité traitant les données en
temps réel.

Loin du « Big Bang », l’approche se prête bien au projet «Agile»
et n’oblige pas de connaître TOUT de l’entreprise. Les méthodes
d’ajustement des structures est même prévue dans cette
approche.
L’architecture des structures est stable                                                                                                     21




                                                                     Satellite
                                                                                            Satellite              Satellite
                                          Satellite                -DONNÉES
                                                                                          -DONNÉES               -DONNÉES
                                        -DONNÉES
                                                                                                                                 Satellite
                            Satellite
                                                                                                                               -DONNÉES
                          -DONNÉES

                                                                         HUB primaire
                                                                         -Clé d'affaire
                                                                                                        HUB primaire
                                             HUB primaire
                                                                                                        -Clé d'affaire
                                             -Clé d'affaire



                                                              LINK associant les HUB primaires
                                                              -Lien d'affaire


  Chargement associatif

                                                                            Satellite
                                                                          -DONNÉES
  Chargement de base




      Chargement                                       HUB secondaire
                                                                                          HUB secondaire
                                                      -Clé d'affaire
                                                                                          -Clé d'affaire

       Information


                                              Satellite                                                       Satellite
                                            -DONNÉES                                                        -DONNÉES
                                                                                              Satellite
                                                             Satellite
                                                                                            -DONNÉES
                                                           -DONNÉES
Questions ?                                       22




Qui a une voute au Québec ? La Caisse de dépôt
depuis l’été 2011.
Est-ce seulement pour l’entrepôt ? Une très
grande entreprise s’en sert comme système
opérationnel. Microsoft l’utilise aussi.
Est-ce adaptable à la virtualisation et au
développement futur ? Certaines compagnies
commencent à l’utiliser dans le cadre de la
virtualisation des données. L’intégration des
données est maintenant reconnue comme étant
distinct du « BI » et des entrepôts de données.
.....

Contenu connexe

Tendances

Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeKent Graziano
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Introduction To Data Vault - DAMA Oregon 2012
Introduction To Data Vault - DAMA Oregon 2012Introduction To Data Vault - DAMA Oregon 2012
Introduction To Data Vault - DAMA Oregon 2012Empowered Holdings, LLC
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQLkamar MEDDAH
 
Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Michael Olschimke
 
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingAgile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingKent Graziano
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Differentiate Big Data vs Data Warehouse use cases for a cloud solution
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionDifferentiate Big Data vs Data Warehouse use cases for a cloud solution
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionJames Serra
 
(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling
(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling
(OTW13) Agile Data Warehousing: Introduction to Data Vault ModelingKent Graziano
 
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeData Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeWhereScape
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 

Tendances (20)

Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on Snowflake
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Introduction To Data Vault - DAMA Oregon 2012
Introduction To Data Vault - DAMA Oregon 2012Introduction To Data Vault - DAMA Oregon 2012
Introduction To Data Vault - DAMA Oregon 2012
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)
 
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data ModelingAgile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
Agile Data Warehouse Modeling: Introduction to Data Vault Data Modeling
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Operational Data Vault
Operational Data VaultOperational Data Vault
Operational Data Vault
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Thinking big
Thinking bigThinking big
Thinking big
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Differentiate Big Data vs Data Warehouse use cases for a cloud solution
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionDifferentiate Big Data vs Data Warehouse use cases for a cloud solution
Differentiate Big Data vs Data Warehouse use cases for a cloud solution
 
(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling
(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling
(OTW13) Agile Data Warehousing: Introduction to Data Vault Modeling
 
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeData Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)
 
080827 abramson inmon vs kimball
080827 abramson   inmon vs kimball080827 abramson   inmon vs kimball
080827 abramson inmon vs kimball
 

Similaire à Présentation data vault et bi v20120508

Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Youssef Loudiyi
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfDr Hajji Hicham
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Dwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - studentDwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - studentCarlos Sanin
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
GeoMap: Solutions Géospatiales Oracle et B.I.v2
GeoMap: Solutions Géospatiales Oracle et B.I.v2GeoMap: Solutions Géospatiales Oracle et B.I.v2
GeoMap: Solutions Géospatiales Oracle et B.I.v2Geomap GIS America
 
Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Start and Growth
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Laurent LETOURMY
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...medialabSciencesPo
 
Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Novulys SAS
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...ljaquet
 

Similaire à Présentation data vault et bi v20120508 (20)

_2_expo_DW_DM.pdf
_2_expo_DW_DM.pdf_2_expo_DW_DM.pdf
_2_expo_DW_DM.pdf
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdf
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Dwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - studentDwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - student
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
BigData selon IBM
BigData selon IBM BigData selon IBM
BigData selon IBM
 
GeoMap: Solutions Géospatiales Oracle et B.I.v2
GeoMap: Solutions Géospatiales Oracle et B.I.v2GeoMap: Solutions Géospatiales Oracle et B.I.v2
GeoMap: Solutions Géospatiales Oracle et B.I.v2
 
Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014Ysance - Salon Big Data 2014
Ysance - Salon Big Data 2014
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
introNoSQL.pdf
introNoSQL.pdfintroNoSQL.pdf
introNoSQL.pdf
 
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...
DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexat...
 
Base de données
Base de donnéesBase de données
Base de données
 
Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
 

Présentation data vault et bi v20120508

  • 1. Présentation du concept Data Vault Évolution vers les processus Diane Mathews – DCEIDMD 2012-05-07
  • 2. Intelligence d’affaire ou « BI » 2 De façon traditionnelle, le « BI » est représenté de cette façon. Le terme Entrepôt de données (ou base de données décisionnelle, ou encore data warehouse) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de bases de données opérationnelles et fournir une aide à la décision en entreprise. (Wiki.)
  • 3. Ce que recherche le « BI » 3 Le « BI » présente au client une information :  Extraite de plusieurs sources  Synchronisées entre plusieurs sources  Filtrées et épurées  Agrégées, dérivées, interprétés selon un domaine d’affaires  Cohérente et juste (Single view AND single source of the truth) Le « BI » a besoin d’agilité  Obtenir l’information rapidement des sources  Adapter facilement le contexte d’affaire pour les fonctions d’analyses  Suivre l’évolution des processus fonctionnels tout en conservant l’historique des données
  • 4. Processus associés aux entrepôts 4 Le chargement des données vers un entrepôt se fait via des processus nommés, ETC. Le contenue et la modélisation des structures de données d’un entrepôt dépendent de la stratégie adoptée par l’entreprise. Certains adoptent un modèle relationnel, dimensionnel ou encore des « data stores » dont la structure est identique aux applications opérationnelles.
  • 5. Le processus complet jusqu’au « BI » 5
  • 6. Évolution des notions d’entrepôt de données 6 Historique des techniques liées à l’entrepôt Software Engineer Best job in US Logical Data Warehouse Publication de l’architecture Wall Street General Mills et Faits et Dimensions Gartner Journal l'Université Dartmouth Data Vault Data Vault Dan Model relationnel Implémenté depuis plus de 10 Linstedt 1960 Edgar F. Codd Dan ans et stable Linstedt 2015 1965 Architecture for the Next Bill Inmon Base de données Generation of Data Derek Strauss 2010 1970 relationnelle Genia Neushloss , Warehousing Elsevier Press Taping in unstructured Bill Inmon Oracle V2 « Data Base Design » Data 2005 1975 Modeling in UML Bill Inmon Base de données Peter Coad managériale Color Bill Inmon 2000 1980 (exclusivement pour la Corporate Information Claudia Imhoff Teradata prise de décision ) Factory Ryan Sousa John Wiley and Sons 1995 1985 Data Vault CMMI niveau 5 Dan 1990 Terme « Data Linstedt Warehouse » Data Warehouse toolkit Ralph Barry Devlin et Kimball Paul Murphy (dimensionnel ) Peter Coad et Red Brick Analyse Orientée Objet Ed Yourdon Dan Linstedt Systems Red Brick Warehouse Problématique de l’intégration des données
  • 7. Problématique d’intégration 7 Avec le temps, les règles d’affaires se multiplient au « BI » niveau de l’entrepôt selon les besoins du « BI ». Au niveau du « BI » plusieurs règles d’intégration et de normalisation Entrepôt(s) font sensiblement les mêmes choses. La maintenance et l’évolution deviennent lourdes et Applications coûteuses... d’autres « bases » Opérationnelles « BI » plus agiles sont créées. ... + +
  • 8. Une vision qui change du 2D au 3D 8 Processus Données 3D « BI » Données 2D « BI »
  • 9. La donnée, élément central du « BI » ? 9 Lors qu’une donnée est créée par un processus, elle est créée, elle ne change pas. Ce qui change, ce sont les processus qui créent ou manipulent la données. L’entrepôt doit maintenir un historique des données sur plusieurs années. Comment fait-on pour suivre l’évolution des systèmes en conservant une seule version de la « vérité » ou une seule « source » de la vérité ?
  • 10. L’approche Data Vault ? 10 Jusqu’à présent, les entrepôts étaient uniquement modélisés selon une architecture de données. Data Vault introduit une notion d’architecture de processus. Les structures de données sont déterminées selon une modélisation relationnelle ET selon une notion de processus selon la "fonction" de la donnée. La structure du Data Vault a été conçue en considérant l’évolution dans son contexte technique et non dans le contexte affaires. Le changement des processus et des structures de données est ciblé plutôt que les changements et l'évolution des fonctions d’affaires. Les étapes d’historisation des données, d’intégration et normalisation pour l’entreprise et la présentation des données sont traitées de façon distincte.
  • 11. CMMI Capacity Maturity Model Integration 11 L’architecture de processus est devenue nécessaire lorsque l’armée américaine a exigé un entrepôt de données qui respectait le CMMI niveau 5. Les processus sont mesurables, standardisés, avec une gestion proactive, réutilisables et prévisibles.
  • 12. Les processus Data Vault 12 Niveau Présentation ▼ 4 Data Vault Comptoirs « Navigation » 4 3 1 – Chargement des données fondation , formatage technique et Niveau Affaires ► Data Vault assignation des clés de voute . 2 – Application des règles « Affaire » d’affaires pour la normalisation , 2 l’intégration et la dérivation d’information au niveau 1 d’entreprise Data Vault 3 – Liens de « navigation » vers Applications les différentes structure du Data Opérationnelles « Fondation » Vault selon des besoins d’affaires spécifiques . Niveau Données ▲ 4 – Exemple d’extraction vers un comptoirs de données Cette approche correspond à l’architecture 3 tiers utilisée dans la conception des processus WEB. Les règles techniques, les règles d’affaires et les règles de présentation sont traitées de façon distinct.
  • 13. L’approche orientée objet 13 Peter Coad en 1999 a introduit la modélisation selon les couleurs UML. En ingénierie des logiciels, l’expérience a prouvé que toutes les classes d’objets d’un modèle d’affaires sont bien décrites par quatre archétypes
  • 14. Structure de données Data Vault 14 « HUB » désigne une clé d’affaire que le client « affaires » peut identifier, nommer et décrire. « LINK » est un lien entre plusieurs clés d’affaires (HUB) « Satellite » représente les données associées à un « HUB » ou à un « LINK ». Seul le « satellite » à une notion de temps. Cette structure correspond à la définition de l’approche orientée objet (Modeling in UML color). Le « HUB » correspond à l’archétype Personne, lieux et choses. Le « LINK » correspond à rôle et « liens » Le « Satellite » correspond à un évènement Les descriptions (tables de références) sont externes à Description une description de Data Vault. Ils sont gérés par des référentiesl ou des type catalogue MDM. L’historique peut être maintenue dans le Data Vault.
  • 15. Règle de base d’une fondation Data Vault 15 Les données sont normalisées (3 NF) AVANT le chargement. Les données d’un « Satellite » ne dépendent que de la clé du satellite. Une clé affaires est définie qu’une seule fois dans une structure de données. Les données ne sont pas filtrées, corrigées ni interprétées. Toutes les données ont une traçabilité jusqu’à la source originale. Les données ne sont jamais modifiées. Les clés de la voute ne sont jamais utilisées hors de la voute. L’accès à la voute est restreint, elle n’a pas une structure répondant directement à une exploitation final des données.
  • 16. Avantages de Data Vault 16  Au chargement, il n’y a pas de dépendance entre les fichiers de données.  L’intégration des données se fait sous un mode passif. Les données d’un satellite se retrouvent sous les mêmes HUB et LINK lorsqu’il a les mêmes structures de clés.  Lorsqu’une règle d’affaires change, les structures en place ne sont pas modifiées. De nouvelles structures sont ajoutées sans impact à l’existant. La «navigation» vers les données est modifiée.
  • 17. Inconvénients de Data Vault 17  Un seul fichier génère plusieurs tables à charger. • Le prix de l’indépendance des chargements  La voute n’est pas accessible facilement • C’est une représentation du FAIT, il est organisé selon la source de données et non la destination finale et il ne change pas.  Data Vault génère beaucoup de cédules de chargement • Lors de changement, l’impact ne touche que les composantes ciblées et n’a pas de répercussions sur les autres processus. L’exécution se fait transversale selon les données et non en silo selon les relations (modèle relationnel et dimensionnel).  Data Vault n’est pas un modèle exploitable • Vrai, Data Vault est une fondation pour l’historisation des données. Pour avoir une version exploitable, il faut créer la partie « navigation » avec les besoins d’affaires précis.
  • 18. Est-ce une solution miracle ? 18  Non, Data Vault n’est pas recommandé si vous avez qu’une seule source de données opérationnelles.  Data Vault ne règle pas des besoins d’affaires non définis.  Data Vault ne corrige pas les règles d’affaires en erreur lors du chargement de la fondation. Ce type de traitement est déplacé vers le niveau « affaires ».  Data Vault exige une modélisation de données très différente de ce qui est connu aujourd’hui (modèle relationnel et dimensionnel). Le modèle logique est réalisé en 3NF, le modèle physique Data Vault dépend des spécifications du chargement.
  • 19. Pourquoi choisir Data Vault ? 19 1) Répond aux besoins des grandes entreprises avec des environnements TI complexes. 2) La capacité d’évolution des processus sans impact aux données. 3) Un effort de support réduit. Les anomalies sont adressés au niveau affaires. (Soit via une correction dans les systèmes opérationnels ou via la couche « affaire » du Data Vault) 4) La facilité de conception. (Patrons fonctionnels) 5) L’avantage de la traçabilité. 6) La réutilisation et la rapidité d’implémentation de nouvelles composantes.
  • 20. Une approche progressive 20 Le plus grand des avantages de Data Vault est l’application d’une approche simple, mesurable et constante pour la conception et l’implémentation d’un dépôt de données. Il a la capacité d’être très petit et être composé que de deux tables et peut évoluer vers un système de très grande capacité traitant les données en temps réel. Loin du « Big Bang », l’approche se prête bien au projet «Agile» et n’oblige pas de connaître TOUT de l’entreprise. Les méthodes d’ajustement des structures est même prévue dans cette approche.
  • 21. L’architecture des structures est stable 21 Satellite Satellite Satellite Satellite -DONNÉES -DONNÉES -DONNÉES -DONNÉES Satellite Satellite -DONNÉES -DONNÉES HUB primaire -Clé d'affaire HUB primaire HUB primaire -Clé d'affaire -Clé d'affaire LINK associant les HUB primaires -Lien d'affaire Chargement associatif Satellite -DONNÉES Chargement de base Chargement HUB secondaire HUB secondaire -Clé d'affaire -Clé d'affaire Information Satellite Satellite -DONNÉES -DONNÉES Satellite Satellite -DONNÉES -DONNÉES
  • 22. Questions ? 22 Qui a une voute au Québec ? La Caisse de dépôt depuis l’été 2011. Est-ce seulement pour l’entrepôt ? Une très grande entreprise s’en sert comme système opérationnel. Microsoft l’utilise aussi. Est-ce adaptable à la virtualisation et au développement futur ? Certaines compagnies commencent à l’utiliser dans le cadre de la virtualisation des données. L’intégration des données est maintenant reconnue comme étant distinct du « BI » et des entrepôts de données. .....

Notes de l'éditeur

  1. Ajouter la vision actuelle dans la page 13