Looking at the IT landscape of big and medium-sized companies, Hadoop Data Lakes are no rarity anymore. Classical Data Warehouses stay on the map as well. So we usually have a hybrid landscape, historically grown and more or less loosely coupled. To gain value from this setup, it requires a holistic and use case oriented approach. This session presents a best-practice architecture. We illustrate the strengths and shortcomings of its components. Regarding typical use cases we discuss which challenge can be tackled best by which part.
Warm welcome from my side
Today look at an architectural topic, no fancy library
At first: basics and bring them together
Whereas in the second part: Use Cases. Of course only samples, you will find further. But all of them mentioned frequently, so regarded as relevant
Different Use Cases joint in our architecture: project example
Inmon:
subject-oriented: selection of loaded data with regard to needed KPIs, not with regard to the operative processes
integrated (Vereinheitlichung): Die in (operativen) Quellsystemen unterschiedlich strukturierten Daten werden im DWH in einheitlicher Form gespeichert.
time-variant: enables analyses with time-reference (developments), daher ist die langfristige Speicherung der Daten im DWH nötig
nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
OLTP: Transaction-orientated, for executive “Daily Business“
OLAP: Analysis-oriented, often aggregated, for evaluation and strategy
DWH = Focus on OLAP rather than OLTP (unlike ODS)
Applications:
Ad-hoc reporting: Analyzing the data at detail level, usually for specialists
Standard Reporting (including Balanced Scorecarding): Usually only partly interactive, distributed to business and clients, well formatted
Management Dashboards: Usually highly aggregated figures, typically equipped with trafficlights, and trends
Regulatory Reporting: Reports and interfaces to official authorities
Corporate planning: Based ond historic data and plannng models
Recent development
More data
Faster data (e.g. sensors) also requirements (e.g. KPIs football game)
Business transformation:
modelling, data types, aggregation vs. cheap storage (raw format) and data asset
Check your assumption vs. interpret correlations
Static schema requires data transformation and manual adaption vs. working with changing schema (-> unknown use cases)
Data is the New Oil
Hybride Architekturen integrieren Verarbeitung und Speicherung strukturierter und unstrukturierter Daten, paralleler und redundanter Verarbeitung großer Datenmengen und datengetriebenen Analysen
ermöglichen eine schnelle Reaktion auf neue/geänderte Anforderungen
Zugriff auf Daten in unterschiedlichen Verarbeitungsschritten (roh, standard, integriert, spezialisiert)
Explizite Unterstützung von DevOps (Continuous Integration, Continuous Deployment)
Schemalose Speicherung
Cloud-basierte Infrastruktur
skalieren
intelligente Datenreplikation ist im Hadoop-Dateisystem (HDFS) eine Kernfunktionalität. Als Dateisystem kann HDFS ohne weiteres über 1000 Rechner und mehrere Petabyte skalieren.
integrieren neue Datentypen (Social Media, Logfiles…)
schützen bestehendes Investment
Integration bestehender Strukturen (DWH)
Integration von neuen Technologien und bestehende BI Architektur
Bewährte Technologie für verlässliches Reporting
Machine Learning
Streaming
Effiziente Speicherung von großen Datenmengen
Einbindung von Social Media, Logfiles und anderer neuer Datentypen
Schnellere Zugriffszeiten auf die Daten für den Fachbereich
Explorative Datenanalyse um ungenutztes Potential nutzbar zu machen
Use Case-spezifische Datenaufbereitung
Further use cases:
Machine Learning: Pricing, Optimization (Travelling Salesman)
Streaming: computing realtime KPIs
Predictive Maintenance