2. Intelligence d’affaire ou « BI » 2
De façon traditionnelle, le
« BI » est représenté de
cette façon.
Le terme Entrepôt de
données (ou base de
données décisionnelle, ou
encore data warehouse)
désigne une base de
données utilisée pour
collecter, ordonner,
journaliser et stocker des
informations provenant de
bases de données
opérationnelles et fournir une
aide à la décision en
entreprise. (Wiki.)
3. Ce que recherche le « BI » 3
Le « BI » présente au client une information :
Extraite de plusieurs sources
Synchronisées entre plusieurs sources
Filtrées et épurées
Agrégées, dérivées, interprétés selon un domaine d’affaires
Cohérente et juste (Single view AND single source of the
truth)
Le « BI » a besoin d’agilité
Obtenir l’information rapidement des sources
Adapter facilement le contexte d’affaire pour les fonctions
d’analyses
Suivre l’évolution des processus fonctionnels tout en
conservant l’historique des données
4. Processus associés aux entrepôts 4
Le chargement des données vers un entrepôt se fait via des
processus nommés, ETC.
Le contenue et la modélisation des structures de données
d’un entrepôt dépendent de la stratégie adoptée par
l’entreprise.
Certains adoptent un modèle relationnel, dimensionnel ou
encore des « data stores » dont la structure est identique aux
applications opérationnelles.
6. Évolution des notions d’entrepôt de données 6
Historique des techniques liées à l’entrepôt
Software Engineer
Best job in US
Logical Data Warehouse
Publication de l’architecture Wall Street General Mills et Faits et Dimensions
Gartner Journal l'Université Dartmouth
Data Vault
Data Vault Dan
Model relationnel
Implémenté depuis plus de 10 Linstedt 1960 Edgar F. Codd
Dan
ans et stable
Linstedt 2015 1965
Architecture for the Next Bill Inmon Base de données
Generation of Data Derek Strauss 2010 1970 relationnelle
Genia Neushloss ,
Warehousing Elsevier Press
Taping in unstructured Bill Inmon
Oracle V2 « Data Base Design »
Data 2005 1975
Modeling in UML Bill Inmon Base de données
Peter Coad managériale
Color
Bill Inmon 2000 1980 (exclusivement pour la
Corporate Information Claudia Imhoff Teradata
prise de décision )
Factory Ryan Sousa
John Wiley and Sons
1995 1985
Data Vault
CMMI niveau 5 Dan 1990 Terme « Data
Linstedt Warehouse »
Data Warehouse toolkit Ralph Barry Devlin et
Kimball Paul Murphy
(dimensionnel )
Peter Coad et Red Brick
Analyse Orientée Objet Ed Yourdon Dan Linstedt Systems Red Brick
Warehouse
Problématique de l’intégration des données
7. Problématique d’intégration 7
Avec le temps, les règles
d’affaires se multiplient au
« BI »
niveau de l’entrepôt selon les
besoins du « BI ». Au niveau du
« BI » plusieurs règles
d’intégration et de normalisation
Entrepôt(s) font sensiblement les mêmes
choses. La maintenance et
l’évolution deviennent lourdes et
Applications coûteuses... d’autres « bases »
Opérationnelles « BI » plus agiles sont créées.
...
+ +
8. Une vision qui change du 2D au 3D 8
Processus
Données 3D « BI »
Données 2D « BI »
9. La donnée, élément central du « BI » ? 9
Lors qu’une donnée est créée par un processus, elle est créée,
elle ne change pas.
Ce qui change, ce sont les processus qui créent ou manipulent
la données.
L’entrepôt doit maintenir un historique des données sur
plusieurs années. Comment fait-on pour suivre l’évolution des
systèmes en conservant une seule version de la « vérité » ou
une seule « source » de la vérité ?
10. L’approche Data Vault ? 10
Jusqu’à présent, les entrepôts étaient uniquement modélisés
selon une architecture de données.
Data Vault introduit une notion d’architecture de processus. Les
structures de données sont déterminées selon une modélisation
relationnelle ET selon une notion de processus selon la
"fonction" de la donnée.
La structure du Data Vault a été conçue en considérant
l’évolution dans son contexte technique et non dans le contexte
affaires. Le changement des processus et des structures de
données est ciblé plutôt que les changements et l'évolution des
fonctions d’affaires.
Les étapes d’historisation des données, d’intégration et
normalisation pour l’entreprise et la présentation des données
sont traitées de façon distincte.
11. CMMI Capacity Maturity Model Integration 11
L’architecture de
processus est devenue
nécessaire lorsque l’armée
américaine a exigé un
entrepôt de données qui
respectait le CMMI niveau
5. Les processus sont
mesurables, standardisés,
avec une gestion
proactive, réutilisables et
prévisibles.
12. Les processus Data Vault 12
Niveau Présentation ▼
4
Data Vault Comptoirs
« Navigation » 4
3 1 – Chargement des données
fondation , formatage technique et
Niveau Affaires ► Data Vault assignation des clés de voute .
2 – Application des règles
« Affaire » d’affaires pour la normalisation ,
2
l’intégration et la dérivation
d’information au niveau
1 d’entreprise
Data Vault 3 – Liens de « navigation » vers
Applications
les différentes structure du Data
Opérationnelles « Fondation » Vault selon des besoins d’affaires
spécifiques .
Niveau Données ▲ 4 – Exemple d’extraction vers un
comptoirs de données
Cette approche correspond à l’architecture 3 tiers utilisée dans la
conception des processus WEB. Les règles techniques, les règles
d’affaires et les règles de présentation sont traitées de façon distinct.
13. L’approche orientée objet 13
Peter Coad en 1999 a introduit la modélisation selon les
couleurs UML.
En ingénierie des logiciels, l’expérience a prouvé que toutes les
classes d’objets d’un modèle d’affaires sont bien décrites par
quatre archétypes
14. Structure de données Data Vault 14
« HUB » désigne une clé d’affaire que le client
« affaires » peut identifier, nommer et décrire.
« LINK » est un lien entre plusieurs clés d’affaires (HUB)
« Satellite » représente les données associées à un
« HUB » ou à un « LINK ». Seul le « satellite » à une
notion de temps.
Cette structure correspond à la définition de l’approche
orientée objet (Modeling in UML color).
Le « HUB » correspond à l’archétype Personne, lieux et
choses.
Le « LINK » correspond à rôle et « liens »
Le « Satellite » correspond à un évènement
Les descriptions (tables de références) sont externes à
Description
une description de
Data Vault. Ils sont gérés par des référentiesl ou des
type catalogue MDM. L’historique peut être maintenue dans le Data
Vault.
15. Règle de base d’une fondation Data Vault 15
Les données sont normalisées (3 NF) AVANT le
chargement. Les données d’un « Satellite » ne dépendent
que de la clé du satellite.
Une clé affaires est définie qu’une seule fois dans une
structure de données.
Les données ne sont pas filtrées, corrigées ni interprétées.
Toutes les données ont une traçabilité jusqu’à la source
originale.
Les données ne sont jamais modifiées.
Les clés de la voute ne sont jamais utilisées hors de la
voute.
L’accès à la voute est restreint, elle n’a pas une structure
répondant directement à une exploitation final des données.
16. Avantages de Data Vault 16
Au chargement, il n’y a pas de
dépendance entre les fichiers de
données.
L’intégration des données se fait
sous un mode passif. Les données
d’un satellite se retrouvent sous
les mêmes HUB et LINK lorsqu’il a
les mêmes structures de clés.
Lorsqu’une règle d’affaires
change, les structures en place ne
sont pas modifiées. De nouvelles
structures sont ajoutées sans
impact à l’existant. La
«navigation» vers les données est
modifiée.
17. Inconvénients de Data Vault 17
Un seul fichier génère plusieurs tables à charger.
• Le prix de l’indépendance des chargements
La voute n’est pas accessible facilement
• C’est une représentation du FAIT, il est organisé selon la
source de données et non la destination finale et il ne change
pas.
Data Vault génère beaucoup de cédules de chargement
• Lors de changement, l’impact ne touche que les composantes
ciblées et n’a pas de répercussions sur les autres processus.
L’exécution se fait transversale selon les données et non en silo
selon les relations (modèle relationnel et dimensionnel).
Data Vault n’est pas un modèle exploitable
• Vrai, Data Vault est une fondation pour l’historisation des
données. Pour avoir une version exploitable, il faut créer la
partie « navigation » avec les besoins d’affaires précis.
18. Est-ce une solution miracle ? 18
Non, Data Vault n’est pas recommandé si vous avez qu’une
seule source de données opérationnelles.
Data Vault ne règle pas des besoins d’affaires non définis.
Data Vault ne corrige pas les règles d’affaires en erreur lors
du chargement de la fondation. Ce type de traitement est
déplacé vers le niveau « affaires ».
Data Vault exige une modélisation de données très
différente de ce qui est connu aujourd’hui (modèle
relationnel et dimensionnel). Le modèle logique est réalisé
en 3NF, le modèle physique Data Vault dépend des
spécifications du chargement.
19. Pourquoi choisir Data Vault ? 19
1) Répond aux besoins des grandes entreprises avec des
environnements TI complexes.
2) La capacité d’évolution des processus sans impact aux
données.
3) Un effort de support réduit. Les anomalies sont adressés
au niveau affaires. (Soit via une correction dans les
systèmes opérationnels ou via la couche « affaire » du
Data Vault)
4) La facilité de conception. (Patrons fonctionnels)
5) L’avantage de la traçabilité.
6) La réutilisation et la rapidité d’implémentation de
nouvelles composantes.
20. Une approche progressive 20
Le plus grand des avantages de Data Vault est
l’application d’une approche simple, mesurable et
constante pour la conception et l’implémentation d’un
dépôt de données. Il a la capacité d’être très petit et être
composé que de deux tables et peut évoluer vers un
système de très grande capacité traitant les données en
temps réel.
Loin du « Big Bang », l’approche se prête bien au projet «Agile»
et n’oblige pas de connaître TOUT de l’entreprise. Les méthodes
d’ajustement des structures est même prévue dans cette
approche.
21. L’architecture des structures est stable 21
Satellite
Satellite Satellite
Satellite -DONNÉES
-DONNÉES -DONNÉES
-DONNÉES
Satellite
Satellite
-DONNÉES
-DONNÉES
HUB primaire
-Clé d'affaire
HUB primaire
HUB primaire
-Clé d'affaire
-Clé d'affaire
LINK associant les HUB primaires
-Lien d'affaire
Chargement associatif
Satellite
-DONNÉES
Chargement de base
Chargement HUB secondaire
HUB secondaire
-Clé d'affaire
-Clé d'affaire
Information
Satellite Satellite
-DONNÉES -DONNÉES
Satellite
Satellite
-DONNÉES
-DONNÉES
22. Questions ? 22
Qui a une voute au Québec ? La Caisse de dépôt
depuis l’été 2011.
Est-ce seulement pour l’entrepôt ? Une très
grande entreprise s’en sert comme système
opérationnel. Microsoft l’utilise aussi.
Est-ce adaptable à la virtualisation et au
développement futur ? Certaines compagnies
commencent à l’utiliser dans le cadre de la
virtualisation des données. L’intégration des
données est maintenant reconnue comme étant
distinct du « BI » et des entrepôts de données.
.....