Data Lake Architektur: Von den Anforderungen zur Technologie

•

5 j'aime•3,549 vues

Keynote auf dem BARC Big Data Forum auf der OOP 2017, München. Data Lakes bieten das Potenzial, den Zugriff auf heterogene Massendaten deutlich schneller und einfacher als relationale DWH-System zu ermöglichen. Die Risiken, die sich durch neue Technologien und den weitgehenden Verzicht auf vorab definierte Strukturen ergeben, dürfen allerdings nicht außer acht gelassen werden. Anforderungsmuster helfen, notwendige Strukturen für den Data Lake an sich und auch den Technologie-Stack zu definieren.

Données & analyses

Prof. Dr. Jens Albrecht
jens.albrecht@th-nuernberg.de
Data Lake Architektur
Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 11
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI
End-User
Layer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH

Prof. Dr. Jens Albrecht Big Data 12
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI und Big Data
End-User
Layer
Data Sources
Reporting OLAP
Operational
Analytics
Data
Discovery
Data Lake
Hadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Search

Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources
0
1
0
1
0
1
0
1
0
1
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.

Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
Daten in Originalformat
gespeichert
Datenstrukturen werden erst
definiert, wenn Daten benötigt
werden (Schema-on-Read)
Alle Daten werden gespeichert
Einfache Adaption von
Änderungen
Agile Einbindung neuer Daten
Einfacher Zugriff für alle
Benutzer

Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen

Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …
Real-Time/
Stream
Kafka Spark
Fixing the Requirements: Ingestion
ForeachDataSource Data Types
(Variety)
Frequency
(Velocity)
Latency
(Batch or Stream)
Volume
Quality (Veracity)
Consistent
Timeline
CDC
Push/Pull
Hive
Sqoop Spark
…
Batch
Beam

Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed Layer
Kafka, Storm
Batch Layer
Hadoop, Spark
Serving LayerLambda
Streaming Data
Message Buffer
and Broker
Kafka
Stream
Processor
Flink, Spark
Serving Layer
Kappa
Speed Table
Batch Table

Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Storage 3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries
(as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS
+
Hive/Spark
Cloud?

Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop
▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
Java
Python
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark

Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Curation Quality
Policies &
Standards
Security & Privacy
Lifecycle
Management
Lineage
Metadata
Management
Data Tagging
Data Lake
Landing
Zone
Raw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
DataInventory
Security
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger

Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data Lake
Hadoop, NoSQL
Enterprise
DWH
UseCases Advanced
Analytics
Self-Service
Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, Streaming
Hive, Drill,
Impala

Prof. Dr. Jens Albrecht Big Data 25
>
Risiken verstehen

Prof. Dr. Jens Albrecht Big Data 26
Risiken
Wer billig kauft,
kauft zweimal
CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

Prof. Dr. Jens Albrecht Big Data 27
Risiken
Falsches Werkzeug
für die Aufgabe
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 28
Risiken
Unterschätzung der
technologischen
Komplexität
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 29
Risiken
Unterschätzung des
Personalbedarfs und
-aufwands
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 30
Risiken
Mangelnde
Automatisierung
und Wieder-
verwendbarkeit
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 31
Risiken
Abhängigkeit
von der IT
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 32
>
Fazit

Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden
stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige
Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

Prof. Dr. Jens Albrecht Big Data 34
>
Vielen Dank
Jens.Albrecht@th-nuernberg.de

Contenu connexe

Tendances

The data architecture of solutions is frequently not given the attention it deserves or needs. Frequently, too little attention is paid to designing and specifying the data architecture within individual solutions and their constituent components. This is due to the behaviours of both solution architects ad data architects. Solution architecture tends to concern itself with functional, technology and software components of the solution Data architecture tends not to get involved with the data aspects of technology solutions, leaving a data architecture gap. Combined with the gap where data architecture tends not to get involved with the data aspects of technology solutions, there is also frequently a solution architecture data gap. Solution architecture also frequently omits the detail of data aspects of solutions leading to a solution data architecture gap. These gaps result in a data blind spot for the organisation. Data architecture tends to concern itself with post-individual solutions. Data architecture needs to shift left into the domain of solutions and their data and more actively engage with the data dimensions of individual solutions. Data architecture can provide the lead in sealing these data gaps through a shift-left of its scope and activities as well providing standards and common data tooling for solution data architecture The objective of data design for solutions is the same as that for overall solution design: • To capture sufficient information to enable the solution design to be implemented • To unambiguously define the data requirements of the solution and to confirm and agree those requirements with the target solution consumers • To ensure that the implemented solution meets the requirements of the solution consumers and that no deviations have taken place during the solution implementation journey Solution data architecture avoids problems with solution operation and use: • Poor and inconsistent data quality • Poor performance, throughput, response times and scalability • Poorly designed data structures can lead to long data update times leading to long response times, affecting solution usability, loss of productivity and transaction abandonment • Poor reporting and analysis • Poor data integration • Poor solution serviceability and maintainability • Manual workarounds for data integration, data extract for reporting and analysis Data-design-related solution problems frequently become evident and manifest themselves only after the solution goes live. The benefits of solution data architecture are not always evident initially.

Data Architecture for Solutions.pdf

Alan McSweeney

DW Migration Webinar-March 2022.pptx

Databricks

Modern Data architecture Design

Kujambu Murugesan

Data Lakehouse, Data Mesh, and Data Fabric (r1)

James Serra

Big Data analytics

ArunKumar5524

What is data engineering?

yongdam kim

Introduction to Hortonworks Data Platform

Hortonworks

Dremio introduction

Alexis Gendronneau

Data Products and teams

Dr. Jimmy Schwarzkopf

I gave this presentation at the Advanced Architecture Conference, Bill Inmon, 2011 in Evergreen, Colorado. This presentation covers a new breed of data warehousing called Operational Data Warehousing. These are the next steps in business intelligence towards self-service BI and enabling users to do more with their enterprise data warehouse solution. Specifically, it talks about how the Data Vault model fits in to this picture. If you would like to use the slides, please e-mail me first, I'd be happy to discuss it with you.

Operational Data Vault

Empowered Holdings, LLC

Building Lakehouses on Delta Lake with SQL Analytics Primer

Databricks

Tomer Shiran est le fondateur et chef de produit (CPO) de Dremio. Tomer était le 4e employé et vice-président produit de MapR, un pionnier de l'analyse du Big Data. Il a également occupé de nombreux postes de gestion de produits et d'ingénierie chez IBM Research et Microsoft, et a fondé plusieurs sites Web qui ont servi des millions d'utilisateurs. Il est titulaire d'un Master en génie informatique de l'Université Carnegie Mellon et d'un Bachelor of Science en informatique du Technion - Israel Institute of Technology. Le Modern Data Stack meetup est ravi d'accueillir Tomer Shiran. Depuis Apache Drill, Apache Arrow maintenant Apache Iceberg, il ancre avec ses équipes des choix pour Dremio avec une vision de la plateforme de données “ouverte” basée sur des technologies open source. En plus, de ces valeurs qui évitent le verrouillage de clients dans des formats propriétaires, il a aussi le souci des coûts qu’engendrent de telles plateformes. Il sait aussi proposer un certain nombre de fonctionnalités qui transforment la gestion de données grâce à des initiatives telles Nessie qui ouvre la route du Data As Code et du transactionnel multi-processus. Le Modern Data Stack Meetup laisse “carte blanche” à Tomer Shiran afin qu’il nous partage son expérience et sa vision quant à l’Open Data Lakehouse.

From Data Warehouse to Lakehouse

Modern Data Stack France

Power BI has in its DNA the goal of enabling everybody to experience their data any way, anywhere—in seconds and at global scale. Power BI offers a set of capabilities that are uniquely enabled by its global and cloud nature: The ability to harness data from Excel spreadsheets, on-premises data sources through the data gateway, big data, streaming data, and cloud services. It doesn’t matter what type of data you want or where it lives, Power BI allows you to connect to hundreds of data sources. Out-of-the box SaaS content packs that deliver a curated experience with pre-built dashboards to get you up and running quickly. We have hundreds of ISVs building content packs to cater to the needs of millions of Power BI users. Unmatched, unique ways for users to experience their data with speed and agility: Live dashboards that maintain a real-time pulse on the business and provide critical insights. Natural language query that enables users to simply and intuitively ask questions of their data, including through Cortana. Custom visuals that bring data to life and surface intelligence hidden in the sea of data, with our community leveraging the Power BI visualization stack to create new ways to visualize data in a way that makes more sense. (Now available in the Office store.) Integration of Power BI with the Microsoft stack. Power BI is part of larger ecosystem that integrates with services like Microsoft Teams, Office 365, and Dynamics 365. These services are aware of Power BI, are wired to Power BI, and enable you to use Power BI in the context of your work. Anywhere access to insights. Whether in the office or on-the-go, Power BI provides anywhere access to insights with dashboards accessible via the desktop, on the web, or across mobile devices. Inside Excel, embedded—we have hundreds of ISVs embedding Power BI in their offerings.

Microsoft Power BI Technical Overview

David J Rosenthal

In this session, learn how to quickly supplement your on-premises Hadoop environment with a simple, open, and collaborative cloud architecture that enables you to generate greater value with scaled application of analytics and AI on all your data. You will also learn five critical steps for a successful migration to the Databricks Lakehouse Platform along with the resources available to help you begin to re-skill your data teams.

5 Critical Steps to Clean Your Data Swamp When Migrating Off of Hadoop

Databricks

Analytics is all about course correcting the future. While this starts with accurate predictions of the future, without resultant actions steering the future toward company goals, knowing that future is academic. Successful companies must be grounded in successful data-based prescription. In this webinar, William will present a data maturity model with a focus on how analytic competitors outdo the competition by looking forward to a data-influenced future.

Predictive vs Prescriptive Analytics

DATAVERSITY

Every business today wants to leverage data to drive strategic initiatives with machine learning, data science and analytics — but runs into challenges from siloed teams, proprietary technologies and unreliable data. That’s why enterprises are turning to the lakehouse because it offers a single platform to unify all your data, analytics and AI workloads. Join our How to Build a Lakehouse technical training, where we’ll explore how to use Apache SparkTM, Delta Lake, and other open source technologies to build a better lakehouse. This virtual session will include concepts, architectures and demos. Here’s what you’ll learn in this 2-hour session: How Delta Lake combines the best of data warehouses and data lakes for improved data reliability, performance and security How to use Apache Spark and Delta Lake to perform ETL processing, manage late-arriving data, and repair corrupted data directly on your lakehouse

Free Training: How to Build a Lakehouse

Databricks

Architecting a datalake

Laurent Leturgez

Data Con LA 2020 Description In this session, I introduce the Amazon Redshift lake house architecture which enables you to query data across your data warehouse, data lake, and operational databases to gain faster and deeper insights. With a lake house architecture, you can store data in open file formats in your Amazon S3 data lake. Speaker Antje Barth, Amazon Web Services, Sr. Developer Advocate, AI and Machine Learning

Owning Your Own (Data) Lake House

Data Con LA

Data warehouse

Richard Bányi

Power BI visuals

Aldis Ērglis

Tendances (20)

Data Architecture for Solutions.pdf

DW Migration Webinar-March 2022.pptx

Modern Data architecture Design

Data Lakehouse, Data Mesh, and Data Fabric (r1)

Big Data analytics

What is data engineering?

Introduction to Hortonworks Data Platform

Dremio introduction

Data Products and teams

Operational Data Vault

Building Lakehouses on Delta Lake with SQL Analytics Primer

From Data Warehouse to Lakehouse

Microsoft Power BI Technical Overview

5 Critical Steps to Clean Your Data Swamp When Migrating Off of Hadoop

Predictive vs Prescriptive Analytics

Free Training: How to Build a Lakehouse

Architecting a datalake

Owning Your Own (Data) Lake House

Data warehouse

Power BI visuals

Similaire à Data Lake Architektur: Von den Anforderungen zur Technologie

http://www.opitz-consulting.com/go/3-2-11 SQL ist im Rahmen von Big Data die Basis, um Daten zu analysieren. Neben relationalen Datenbanken werden mit Big Data auch Daten aus Hadoop, NoSQL oder anderen Quellen im Data Warehouse integriert. Kann hier SQL verwendet werden? Der Begriff des Logical Data Warehouse beschreibt die Architektur des Datawarehouses mit verschiedenartigen Quellen. Man beschränkt sich nicht mehr auf eine einzelne Datenbank, sondern integriert weitere Datenspeicher. Hadoop spielt in diesem Zusammenhang eine große Rolle. Wie kann eine Kombination von Oracle Datenbank und Hadoop implementiert werden? Wie werden die Daten zwischen den Systemen ausgetauscht? Wie können alle Daten mit SQL analysiert werden? In ihrem Vortrag bei der DOAG Business Intelligence Konferenz 2015 erklärten unser IT-Experte Ingo Reisky und Matthias Fuchs von ise Informatik, wie die einzelnen Komponenten von Hadoop mit SQL abgefragt werden können und welche Innovation Oracle an dieser Stelle bietet. Die Referenten stellten Hadoop Tools wie SQOOP, HIVE, Spark, Oozie und die Connectoren bzw. BigDataSQL von Oracle vor und zeigten wie SQL zur Analytik verwendet werden kann. -- Über uns: Als führender Projektspezialist für ganzheitliche IT-Lösungen tragen wir zur Wertsteigerung der Organisationen unserer Kunden bei und bringen IT und Business in Einklang. Mit OPITZ CONSULTING als zuverlässigem Partner können sich unsere Kunden auf ihr Kerngeschäft konzentrieren und ihre Wettbewerbsvorteile nachhaltig absichern und ausbauen. Über unsere IT-Beratung: http://www.opitz-consulting.com/go/3-8-10 Unser Leistungsangebot: http://www.opitz-consulting.com/go/3-8-874 Karriere bei OPITZ CONSULTING: http://www.opitz-consulting.com/go/3-8-5

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

OPITZ CONSULTING Deutschland

Einfuehrung in Apache Spark

Jens Albrecht

Agilität, Cloud, Offenheit sind nur einige wichtige Anforderungen, die an moderne Data-Warehouse-Systeme gestellt werden. Lange Zeit stand SAP mit ihrer Lösung nicht für diese Art, ein Data Warehouse zu bauen. Aber gilt das noch? Hier zeigen wir Ihnen, wie ein SQL Data Warehouse auf der HANA-Plattform aufgebaut wird, wie es im Kern funktioniert und welche Entwicklungswerkzeuge genutzt werden, um Ihre Anforderungen umzusetzen. Dabei lernen Sie die Stärken des SAP-Ansatzes anhand eines realen Kunden-Beispiels kennen.

Warum sap hana sql data warehousing

ISR Information Products AG

Big Data Konnektivität

Trivadis

SAP BW/4HANA - Ein Überblick

ISR Information Products AG

Oracle Database 12c Release 2

oraclebudb

Überblick zu Oracle Database 12c Release 2

Ulrike Schwinn

IT-Tage 2018, Frankfurt: Vortrag von Mario-Leander Reimer (@LeanderReimer, Cheftechnologe bei QAware) === Dokument bitte herunterladen für bessere Lesbarkeit! === Abstract: Data Processing und Microservices sind ein perfektes Gespann. In dieser Kombination können Microservices dazu verwendet werden, ein flexibles, Event-getriebenes und skalierbares System von lose gekoppelten Datenverarbeitungsaufgaben aufzubauen. Diesen Ansatz nennen wir Dataservices. In diesem Vortrag stellen wir zunächst die wesentlichen Konzepte und einige Schlüsseltechnologien vor, um Dataservice-Architekturen zu realisieren. Anschließend werden wir die einzelnen Bestandteile einer exemplarischen Datenverarbeitungs-Pipeline schrittweise komponieren und die Showcase-Pipeline in der Cloud zur Ausführung bringen und skalieren.

Dataservices - Data Processing mit Microservices

QAware GmbH

Applikationen und Datenbanken generieren Logfiles, deren Inhalte wichtige Aussagen über Zugriffsmuster enthalten. So kann ermittelt werden, welche Produkte am häufigsten abgefragt werden oder welche Kundentrends sich abzeichnen. In diesem Vortrag beleuchten wir zunächst die Problematik anhand von praktischen Use Cases. Danach zeigen wir, wie sich die Probleme mit einem herkömmlichen Datenbankansatz, mit Hadoop und mit Splunk lösen lassen.

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

KurtStockinger

Das SAP BW hat sich durch seine tiefe Integration mit dem SAP ERP als Data Warehouse primär für kaufmännische Daten etabliert. Über die Jahre sind große monolithische Systeme für Reporting und Analysen entstanden. Realität sind in der Regel leider lange Entwicklungszeiten und eine, durch die Architektur, träge Modellierung. Eine weitere Entwicklung setzt bestehende SAP-BW-Architekturen zusätzlich unter Druck. Mit SAP HANA SQL und der neuen Data Warehouse Cloud (DWC) bietet SAP zwei weitere Lösungen an, die sich stärker auf Cloud und agile Entwicklungsprozesse ausrichten. Gleichzeitig gibt es sehr flexible und skalierbare Cloud-basierte nonSAP-Ansätze (z.B. Snowflake, Redshift, etc.) am Markt, welche eine wachsende Beliebtheit haben. Das SAP BW im Umbruch – Was bedeutet dies für das SAP BW? Was wird die künftige Entwicklung und Positionierung des SAP BW prägen? Worauf müssen sich Kunden vorbereiten? Wir geben Ihnen Antworten und werfen einen Blick auf die nächsten Jahre des BW-Umfelds.

SAP BW im Umbruch

ISR Information Products AG

Analytic powerhouse parallel data warehouse und r

Marcel Franke

Foliensatz zum Workshop auf der TDWI-Konferenz 2021. Abstract: Die systematische Nutzung von Freitexten bietet ein großes Potenzial für die Gewinnung neuer Erkenntnisse oder die Automatisierung von Prozessen, das Unternehmen verstärkt nutzen wollen. Der Workshop soll Datenanalysten den Einstieg in das Text Mining erleichtern. Anhang konkreter Anwendungsbeispiele werden die nötigen Schritte und aktuelle Analyse- und maschinelle Lernverfahren erläutert. Für Datenvorbereitung und das Mining wird dabei Python genutzt, die Auswertung und Visualisierung der Ergebnisse erfolgt mit PowerBI.

Text Mining mit Python und PowerBI

Jens Albrecht

Das einzig Beständige ist der Wandel: Kritische Informationen, die Unternehmen täglich als Entscheidungsgrundlage benötigen, unterliegen der permanenten Veränderung und sind noch dazu über viele interne und externe Quellen verteilt. Sei es in Dokumenten, E-Mails, auf Portalen und Websites, etc. – überall finden sich relevante Daten, die wertvolle Erkenntnisse für fundierte Geschäftsentscheidungen liefern können. Technisch betrachtet müssen die zum Teil sehr schwer zugänglichen Informationen zunächst einmal von den verteilten Anwendungen und Datenquellen beschafft werden bevor die eigentliche Weiterverarbeitung im Data Warehouse stattfindet. Als graphisches Entwicklungswerkzeug setzt das Endeca Web Acquisition Toolkit (Endeca WAT) genau an diesem Punkt an, indem es das Erstellen synthetischer Schnittstellen ermöglicht. Z.B. sollen von einer kommerziellen Website Preisdaten und/oder Kundenbewertungen akquiriert werden, für die der Website-Betreiber keine API bereitstellt. Der nachfolgende Artikel bzw. Vortrag skizziert, wie das Endeca Web Acquisition Toolkit Integrationsaufgaben zur Anbindung externer Datenquellen im Rahmen der aktuellen Oracle Information Management Reference Architecture übernehmen kann

Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...

Harald Erb

Unternehmen sind heutzutage in der Lage ihre Daten mit relativer Leichtigkeit aufzunehmen und zu verwalten. Die Herausforderung besteht nun darin, die verborgenen Muster in den Daten zu erkennen und diese zu verstehen, um einen Mehrwert zu generieren. Aufgrund der großen Datenmengen gelingt dies mit traditionelle Ansätzen zumeist nicht. Das Ergebnis: Organisationen kämpfen, um wirklich zu innovieren und sich zu differenzieren.

Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...

Cloudera, Inc.

Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit

AWS Germany

Rbu amanox big_data_intro_infrastruktur

Rene Burgener

Big Data verändert nicht nur die Unternehmens-IT fundamental, sondern auch die Arbeit des Analysten. Die klassischen Analysten sehen sich im Zuge des Wandels zu einer datengetriebenen Unternehmenskultur mit neuen Anforderungen und ungewohnten technologischen Plattformen konfrontiert. Sie müssen als Data Scientist fachliche Fragestellungen unter dem Aspekt der Big Data-Technologien umsetzen, visualisieren und aus den Daten Werte generieren. Anhand eines konkreten Use Cases, der Programmierung eines Recommender-Systems, zeigen wir Ansätze, wie sich die gewohnten Vorgehensweisen und Werkzeuge eines Analysten (namentlich R und Python) mit einer Big Data-Technologie (Spark) kombinieren lassen. Ziel ist es, dem Analysten den Einstieg in die Big Data-Welt zu erleichtern. Wir demonstrieren die Arbeit mit diesem Toolset an anschaulichen Beispielen in einem interaktiven Workshop-Format und laden zur Diskussion und Nachahmung dieser Vorgehensweise ein. Der Workshop richtet sich an Teilnehmer mit Grundkenntnissen aus den Bereichen analytische Methoden und Machine Learning sowie R oder Python. Der Workshop wird auf der Spark-Plattform durchgeführt. Zu Spark werden keine Kenntnisse vorausgesetzt.

Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform

Rising Media Ltd.

Geänderte Anforderungen an eine Data-Warehouse-Landschaft

ISR Information Products AG

Oracle Technology Monthly Oktober 2017

oraclebudb

Vortrag von der DOAG 2015-Konferenz: Die Umsetzung von Datenprojekten muss man nicht zwangsläufig den sog. Data Scientists allein überlassen werden. Daten- und Tool-Komplexität im Umgang mit Big Data sind keine unüberwindbaren Hürden mehr für die Teams, die heute im Unternehmen bereits für Aufbau und Bewirtschaftung des Data Warehouses sowie dem Management bzw. der Weiterentwicklung der Business Intelligence-Plattform zuständig sind. In einem interdisziplinären Team bringen neben den technischen Rollen auch Fachanwender und Business Analysten von Anfang an ihr Domänenwissen in das Datenprojekt mit ein,

Big Data Discovery + Analytics = Datengetriebene Innovation!

Harald Erb

Similaire à Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

Einfuehrung in Apache Spark

Warum sap hana sql data warehousing

Big Data Konnektivität

SAP BW/4HANA - Ein Überblick

Oracle Database 12c Release 2

Überblick zu Oracle Database 12c Release 2

Dataservices - Data Processing mit Microservices

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

SAP BW im Umbruch

Analytic powerhouse parallel data warehouse und r

Text Mining mit Python und PowerBI

Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...

Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...

Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit

Rbu amanox big_data_intro_infrastruktur

Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform

Geänderte Anforderungen an eine Data-Warehouse-Landschaft

Oracle Technology Monthly Oktober 2017

Big Data Discovery + Analytics = Datengetriebene Innovation!

Data Lake Architektur: Von den Anforderungen zur Technologie

1. Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Data Lake Architektur Von den Anforderungen zur Technologie

2. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

3. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

4. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

5. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

6. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

7. Prof. Dr. Jens Albrecht Big Data 11 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI End-User Layer Data Sources Reporting OLAP OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH

8. Prof. Dr. Jens Albrecht Big Data 12 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI und Big Data End-User Layer Data Sources Reporting OLAP Operational Analytics Data Discovery Data Lake Hadoop, NoSQL Prediction OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH Search

9. Prof. Dr. Jens Albrecht Big Data 14 Enterprise Data Lake / Hub / Reservoir Internal Applications External Data Sources 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Comprehensive Data Pool Business Analytics Tool Collect data as it is generated, process data when it is needed.

10. Prof. Dr. Jens Albrecht Big Data 15 Wozu ein Data Lake? Daten in Originalformat gespeichert Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read) Alle Daten werden gespeichert Einfache Adaption von Änderungen Agile Einbindung neuer Daten Einfacher Zugriff für alle Benutzer

11. Prof. Dr. Jens Albrecht Big Data 16 > Anforderungsmuster verstehen

12. Prof. Dr. Jens Albrecht Big Data 18 Nifi Flink Storm Samza Apex … Real-Time/ Stream Kafka Spark Fixing the Requirements: Ingestion ForeachDataSource Data Types (Variety) Frequency (Velocity) Latency (Batch or Stream) Volume Quality (Veracity) Consistent Timeline CDC Push/Pull Hive Sqoop Spark … Batch Beam

13. Prof. Dr. Jens Albrecht Big Data 19 Lambda und Kappa Architektur Streaming Data Speed Layer Kafka, Storm Batch Layer Hadoop, Spark Serving LayerLambda Streaming Data Message Buffer and Broker Kafka Stream Processor Flink, Spark Serving Layer Kappa Speed Table Batch Table

14. Prof. Dr. Jens Albrecht Big Data 20 Fixing the Requirements: Storage & Process Storage 3V's Query Patterns Update Patterns SQL Support Data Linkage Schema Evolution Historical Queries (as-is vs. as-was) Security Retention Policy Accumulo HBase Cassandra Mongo Neo4j … NoSQL In-Memory SMP MPP Open Source Kudu … Relational Parquet Flat Files JSON ORC Avro … HDFS + Hive/Spark Cloud?

15. Prof. Dr. Jens Albrecht Big Data 21 Apache Spark – Swiss Army Knife of Big Data ☛ Agilität und Skalierbarkeit mit und ohne Hadoop ▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python) ▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung ▸ Einheitliches System für Batch- und Stream-Processing Batch Processing Machine Learning Java Python Scala R Data Streaming Graph Processing SQL Apache Spark

16. Prof. Dr. Jens Albrecht Big Data 22 Fixing the Requirements: Curation & Governance Curation Quality Policies & Standards Security & Privacy Lifecycle Management Lineage Metadata Management Data Tagging Data Lake Landing Zone Raw Zone Discovery Sandbox Curated Zone Work Zone DataInventory Security Sensitive Zone Waterline Atlas Cloudera Navigator Sentry Ranger

17. Prof. Dr. Jens Albrecht Big Data 24 Anwendungsfälle Data Lake Hadoop, NoSQL Enterprise DWH UseCases Advanced Analytics Self-Service Data Discovery Stream Processing ETL Migration Data Offloading Virtual Data Hub Kafka Sqoop Spark Datasource API SQL, R, ML, Streaming Hive, Drill, Impala

18. Prof. Dr. Jens Albrecht Big Data 25 > Risiken verstehen

19. Prof. Dr. Jens Albrecht Big Data 26 Risiken Wer billig kauft, kauft zweimal CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

20. Prof. Dr. Jens Albrecht Big Data 27 Risiken Falsches Werkzeug für die Aufgabe www.pixabay.com

21. Prof. Dr. Jens Albrecht Big Data 28 Risiken Unterschätzung der technologischen Komplexität www.pixabay.com

22. Prof. Dr. Jens Albrecht Big Data 29 Risiken Unterschätzung des Personalbedarfs und -aufwands www.pixabay.com www.pixabay.com

23. Prof. Dr. Jens Albrecht Big Data 30 Risiken Mangelnde Automatisierung und Wieder- verwendbarkeit www.pixabay.com www.pixabay.com

24. Prof. Dr. Jens Albrecht Big Data 31 Risiken Abhängigkeit von der IT www.pixabay.com www.pixabay.com

25. Prof. Dr. Jens Albrecht Big Data 32 > Fazit

26. Prof. Dr. Jens Albrecht Big Data 33 Fazit 1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen 2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl 3. Komplexität kontrollieren 4. Gesundes Maß für Data Governance und Security finden 5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

27. Prof. Dr. Jens Albrecht Big Data 34 > Vielen Dank Jens.Albrecht@th-nuernberg.de

Data Lake Architektur: Von den Anforderungen zur Technologie

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Data Lake Architektur: Von den Anforderungen zur Technologie

Similaire à Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Data Lake Architektur: Von den Anforderungen zur Technologie