12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
Modellierung agiler Data Warehouses mit Data Vault Dani Schnider
1. BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENEVA
HAMBURG COPENHAGEN LAUSANNE MUNICH STUTTGART VIENNA ZURICH
Modellierung agiler Data Warehouses
mit Data Vault
Dani Schnider, Trivadis AG
DOAG Konferenz 2015
2. Dani Schnider
2
Principal Consultant, Trainer
und DWH/BI Lead Architect
bei Trivadis in Zürich
Co-Autor des Buches «Data
Warehousing mit Oracle –
Business Intelligence in der
Praxis»
Certified Data Vault Data
Modeler
19.11.2015 Modellierung agiler Data Warehouses mit Data Vault
3. Unser Unternehmen.
Modellierung agiler Data Warehouses mit Data Vault3 19.11.2015
Trivadis ist führend bei der IT-Beratung, der Systemintegration, dem Solution
Engineering und der Erbringung von IT-Services mit Fokussierung auf -
und -Technologien in der Schweiz, Deutschland, Österreich und
Dänemark. Trivadis erbringt ihre Leistungen aus den strategischen Geschäftsfeldern:
Trivadis Services übernimmt den korrespondierenden Betrieb Ihrer IT Systeme.
B E T R I E B
4. KOPENHAGEN
MÜNCHEN
LAUSANNE
BERN
ZÜRICH
BRUGG
GENF
HAMBURG
DÜSSELDORF
FRANKFURT
STUTTGART
FREIBURG
BASEL
WIEN
Mit über 600 IT- und Fachexperten bei Ihnen vor Ort.
Modellierung agiler Data Warehouses mit Data Vault4 19.11.2015
14 Trivadis Niederlassungen mit
über 600 Mitarbeitenden.
Über 200 Service Level Agreements.
Mehr als 4'000 Trainingsteilnehmer.
Forschungs- und Entwicklungsbudget:
CHF 5.0 Mio.
Finanziell unabhängig und
nachhaltig profitabel.
Erfahrung aus mehr als 1'900 Projekten
pro Jahr bei über 800 Kunden.
6. Was ist Data Vault?
Modellierung agiler Data Warehouses mit Data Vault6 19.11.2015
Datenmodellierungsmethode für
Data Warehouses in agilen
Projektumgebungen
Entwickelt von Dan Linstedt
Geeignet für DWH Core Layer
bzw. Enterprise DWH
Optimiert für Agilität, Integration
und Historisierung
3NF
Model
Dimensional
Model
Dimensional
Model
3NF
Model
Data Vault
Model
3NF
Model
OLTP Systeme EDWH / Core Data Marts
7. Motivation und Vorteile
Modellierung agiler Data Warehouses mit Data Vault7 19.11.2015
Agilität
• Einfache Erweiterbar-
keit des Data Vault
Modells
• Kein Redesign
bestehender Elemente
Integration
• Integration von Daten
aus unterschiedlichen
Quellsystemen
• Verwendung von
gemeinsamen
fachlichen Schlüsseln
Historisierung
• Nachvollziehbarkeit
von Datenänderungen
• Vollständige Histori-
sierung von Daten aus
der Vergangenheit
8. Grundidee von Data Vault
Modellierung agiler Data Warehouses mit Data Vault8 19.11.2015
Aufteilung der Daten in
verschiedene Elemente
Hubs
Links
Satellites
9. Argumente für und gegen Data Vault
Modellierung agiler Data Warehouses mit Data Vault9 19.11.2015
Agiler Ansatz Hohe
Komplexität
Einfache
Erweiterbarkeit
Vollständige
Historisierung
Schwer
verständlich
Nur ein Hype-
Thema
Hohe Flexibilität
Gute Integration
Zu viele Tabellen
Komplexe ETL-
Prozesse
11. Hub
Modellierung agiler Data Warehouses mit Data Vault11 19.11.2015
Identifikation von fachlicher Entität
Fachlicher Schlüssel
Keine beschreibenden Attribute
Keine Fremdschlüssel zu anderen Hubs
Künstlicher Schlüssel als Primary Key
Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Business Key(s) (UK)
Load Timestamp
Record Source
HUB
12. Link
Modellierung agiler Data Warehouses mit Data Vault12 19.11.2015
Beziehung zwischen zwei oder mehr Hubs
Fremdschlüssel zu Hubs
Keine beschreibenden Attribute
Erlaubt n-zu-n Beziehungen zwischen Hubs
Nur Verbindungen zu Hubs erlaubt
Künstlicher Schlüssel als Primary Key
Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Foreign Key Hub 1
Foreign Key Hub 2
...
Load Timestamp
Record Source
LINK
13. Satellite
Modellierung agiler Data Warehouses mit Data Vault13 19.11.2015
Kontextinformationen für Hubs oder Links
Fremdschlüssel zu genau einem Hub oder Link
Primary Key: Fremdschlüssel + Ladezeitpunkt
Beschreibende Attribute
Keine Fremdschlüssel zu anderen Hubs/Satellites
Audit-Attribut (Quellsystem)
Mehrere Satellites pro Hub/Link erlaubt
Foreign Key to Hub (PK)
Load Timestamp (PK)
Context Attribute 1
Context Attribute 2
...
Context Attribute n
Record Source
SATELLITE
16. Modellierungsprozess
Modellierung agiler Data Warehouses mit Data Vault16 19.11.2015
1. Fachliche Entitäten definieren:
2. Beziehungen modellieren:
3. Beschreibende Attribute festlegen:
Hubs
Links
Satellites
17. Erweiterung des Data Vault Modells
Modellierung agiler Data Warehouses mit Data Vault17 19.11.2015
Herausforderung bei Datenmodellerweiterungen:
Strukturänderungen bestehender Tabellen
Migration historischer Daten
Data Vault Ansatz:
Bestehende Tabellen nicht verändern
Nur neue Tabellen hinzufügen
Keine Datenmigration notwendig
18. Erweiterung des Data Vault Modells – Beispiel
Modellierung agiler Data Warehouses mit Data Vault18 19.11.2015
Zusätzliche Attribute für Online-Shop:
Login-Name
E-Mail-Addresse
19. Integration mehrerer Quellsysteme
19 19.11.2015
Customer
Database
(A)
Web Shop
Database
(B)
Source Systems
Customer
Online User
✗
✔
Customer_BK Customer_Name
A-123 Claus Jordan
A-456 Dani Schnider
B-0815 Dani Schnider
B-4711 Peter Welker
A-789 Joachim Wehner
B-9876 Claus Jordan
✗
Customer_BK Customer_Name
23489724 Claus Jordan
90346262 Dani Schnider
98437098 Joachim Wehner
82365405 Peter Welker
✔
Modellierung agiler Data Warehouses mit Data Vault
20. Historisierung
Modellierung agiler Data Warehouses mit Data Vault20 19.11.2015
Nachvollziehbarkeit von Datenänderungen
Versionierung der Daten in Satellites
Ladezeitpunkt ist Bestandteil des Satellite PKs
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
21. Historisierung – Beispiel
Modellierung agiler Data Warehouses mit Data Vault21 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
t1 ANNA BIERI, ZUERICH
t2 Anna Bieri, Zuerich
t3 Anna Bieri, Zuerich
abieri@greenmail.ch
t4 Anna Bieri, Zürich
abieri@greenmail.ch
t5 Anna Bieri, Zürich
anna.bieri@yellow.ch
t6 Anna Hartmann-Bieri, Hamburg
a_l_hartmann@web.de
t7 Anna Bieri Hartmann, Hamburg
anna.bieri@web.de
t8 Anna Bieri Hartmann, Basel
anna@hartmann-bieri.ch
22. Point In Time (PIT) Table
Modellierung agiler Data Warehouses mit Data Vault22 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
SID TS S1 S2 S3
77 t1 t1 t1 -
77 t2 t2 t2 -
77 t3 t2 t2 t3
77 t4 t2 t4 t3
77 t5 t2 t4 t5
77 t6 t6 t6 t6
77 t7 t7 t6 t7
77 t8 t7 t8 t8
PIT Table
24. Laden von Data Vault Tabellen
Modellierung agiler Data Warehouses mit Data Vault24 19.11.2015
Hubs:
– Einfügen neuer Business Keys
Links:
– Key Lookups auf Hubs
– Einfügen neuer Beziehungen
Satellites:
– Key Lookup auf Hub
– Deltaermittlung neue Daten / aktuelle Version
– Einfügen von neuer Version
INSERT
INSERT
INSERT
25. Laden von dimensionalen Data Marts aus Data Vault
Modellierung agiler Data Warehouses mit Data Vault25 19.11.2015
Data Vault unterscheidet nicht zwischen Stammdaten
(Dimensionen) und Ereignisdaten (Fakten)
Fakten und Dimensionen können Daten aus
mehreren Entitäten enthalten
Join aller benötigten Hubs, Links und Satellites
SCD1 Dimensionen:
– Aktuelle Version aller Satellites
SCD2 Dimensionen:
– Point In Time (PIT) Tables
– ev. History View Layer
26. Ladeschritte
Modellierung agiler Data Warehouses mit Data Vault26 19.11.2015
1. Paralleles Laden aller Stage-Tabellen
2. Paralleles Laden aller Hubs
3. Paralleles Laden
– aller Links
– aller Hub Satellites
4. Paralleles Laden aller Link Satellites
5. Paralleles Laden aller Dimensionen
6. Paralleles Laden aller Faktentabellen
27. Point In Time (PIT) Table – Beispiel
Modellierung agiler Data Warehouses mit Data Vault27 19.11.2015
Ausführliches Beispiel dazu siehe Blog danischnider.wordpress.com
29. ETL Pipeline
Modellierung agiler Data Warehouses mit Data Vault29 19.11.2015
Verschiedene Arten von Transformationen zwischen Extraktion und Laden
Load
Record
Calculate
D/TStamp
Transform
Cleanse
Validate
Integrate
Extract
Was wird in welcher DWH-Schicht ausgeführt?
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 172
30. Data Warehouse
MartsCleansing Area CoreStaging Area
Metadata
Data Vault
Auswirkungen auf DWH-Architektur
Modellierung agiler Data Warehouses mit Data Vault30 19.11.2015
Source Systems
ETL
BI Plattform
Data Warehouse
Cleansing AreaStaging Area
Metadata
Data Vault
Core Marts
Data Warehouse
Staging Area
Metadata
Raw
Data Vault
Core Marts
Business
Data Vault
31. Transform
Load
D/TStamp
ETL Pipeline für erweiterte Data Vault Architektur
Modellierung agiler Data Warehouses mit Data Vault31 19.11.2015
Load
Calculate
Cleanse
Validate
Integrate
Extract
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 173
Integrate
Transform
Calculate
Cleanse
Validate
Extract
Staging Area Data MartsRaw Data Vault Business Data Vault
Common Business Rules
Mart Specific Rules
33. Data Vault – Chancen und Herausforderungen
Modellierung agiler Data Warehouses mit Data Vault33 19.11.2015
+ Einfache und einheitliche ETL-Regeln
+ Leichte Erweiterbarkeit
+ Integration mehrerer Quellsysteme
+ Vollständige Historisierung
- Hohe Anzahl Tabellen in Data Vault
- Konsequente Einhaltung der Regeln
- Korrekte Wahl der Business Keys
34. Data Vault – Einsatzgebiete
Modellierung agiler Data Warehouses mit Data Vault34 19.11.2015
Projekte mit hoher Agilität
– Häufige Modellerweiterungen
– Laufend ändernde Anforderungen
Data Warehouses mit mehreren Quellen
– Wichtig: Fachliche Schlüssel zwingend
Grosse DWH-Projekte
– Keine manuelle ETL-Entwicklung
– Einsatz von DWH-Generatoren
35. Modellierung agiler Data Warehouses mit Data Vault35 19.11.2015
Trivadis an der DOAG 2015
Ebene 3 - gleich neben der Rolltreppe
Wir freuen uns auf Ihren Besuch.
Denn mit Trivadis gewinnen Sie immer.