Rbu amanox big_data_intro_infrastruktur

BigData-Schlüsselerfolgsfaktoren aus der Praxis
Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Agenda Big Data After-Work Seminar @BFH
Zeit Thema Referent
17.30 Begrüssung Dr. Arno Schmidhauser, BFH
17.35 Big Data – Infrastruktur und Software-
Stacks
René Burgener, amanox solutions AG
18.00 BigData – Instrumente, Werkzeuge,
Frameworks und konkrete Use-Cases
Dr. Daniel Fasel, Scigility GmbH
18.50 BigData PaaS – Automatisierung &
Orchestration Frameworks
Matthias Imsand, amanox solutions AG
19.20 Wrap-Up – Zusammenfassung und Take-
away’s
Urs Zumstein, amanox solutions AG
19.30 Abschluss der Veranstaltung – individuelles
Networking
Teilnehmer
Inhalt

BigData-Infrastruktur und Software-Stacks
Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
Senior Consultant
René Burgener

Unsere Herausforderung – digitale Welt 2020

Big Data- Infrastruktur und Software-Stacks
Inhalt
• Big Data – Herausforderungen und Dimension
Die digitale Transformation unseres Alltags
60 Sekunden im Internet Zeitalter
Die Welt im 2020 (IoT - Internet-of-Things)
• Big Data – Die Entstehung der Technologien & Instrumente
• Big Data – Anforderungen an die Infrastruktur
• Big Data – Hadoop Distributionen im Überblick
• Big Data – Take away’s

Unser vernetzter Alltag
Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg

60 Sekunden im Sozial Media Zeitalter

Ausblick auf zukünftige Herausforderungen
Heute

Wie gross wird Big Data wirklich?

Big Data Technologien sorgt dafür,
dass die Welt sich dreht - Heute als auch Morgen

Big Data
Entstehung der Technologien & Instrumente
Paradigmenwechsel, Prinzipien, Publikationen, Technologien

Die Vorreiter der ersten Stunde
• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit
dem Google File System (ein verteiltes Datei-System).
 MapReduce war der Pate für die Entwicklung von Hadoop
 Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)
• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für
Unternehmen
• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache
Open Source Project
• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data
Projekte
• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich
verfügbarem Support und verschieden zusammengesetzten Tools
 Apache Hadoop Project Organisation
 HortonWorks
 Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)

Die 4 V’s von Big Data
Volumen
Vielfalt
(Variety)
Ungenauigkeit
(Veracity)
Geschwindigkeit
(Velocity)
Datenspeicherungsvolumen
Datenbewegung (z.B. Streaming)
Daten in vielen Formen
Datenunschärfe

Big Data: Paradigmawechsel
Traditionelles Vorgehen Big Data Vorgehen
Gesamte
Informationsmenge
Gesamter
Datenbestand
wird analysiert
Analysierter
Informations-
Ausschnitt
Analyse von kleinen
Data-Subsets
Analyse des gesamten
Datenbestandes

Big Data: Paradigmawechsel 2
Traditionelles Vorgehen Big Data Vorgehen
Hypothese
Start mit einer Hypothese und
Prüfung gegen die vorhandenen Daten
Erkunde alle vorhandenen Daten
und erkenne die Korrelationen
?


Fragestellung
Antwort Daten

Daten Exloration
KorrelationErkenntnis

Die Vielfalt der Daten (Informationen)
Kunde
Name
Vorname
Kundennummer
Ort
Artikel
Bezeichnung
EAN
Preis
MwSt
KundenNr EAN Netto MwSt Brutto Datum
98273891 CH28309810 12,21 8% 24,05 19.04.15
83691817 CH94839928 81,77 8% 97,31 22.04.15
63879287 CH87687628 2,31 7% 2,47 29.04.15
Relationale DB
- Attribute
- Tupel
SQL Query:
SELECT SUM(BRUTTO) WHERE
KUNDENNR = 123456789
Relationale DB
Parallelverarbeitung

Beispiel: Erkennung von Kreditkartenmissbrauch
Visa hat ca. 2 Mrd.
Kreditkarten weltweit
Kreditkartenunternehmen erstellen
ein Muster aus den Zahlungsdaten
Werden einige Tage später
Einkäufe im Reiseland getätigt,
liegt evtl. ein Missbrauch vor!
Durch Big Data Technologie hat sich die Dauer
der Analyse von 45 Min. auf 4 Sek. verkürzt
Quelle: Bild der Wissenschaft, Ulrich Schmitz

Big Data
Anforderungen an die Infrastruktur
Analogie der Big Data und der Web-Scale Technologien

Die Infrastrukturanforderungen
POWERzu erschwinglichem Preis
• Rechenpower & Datenspeicherkapazität
• Rechner (Verarbeitungsgeschwindigkeit)
 1 Rechner = sequentiell
 Mehrere Rechner = parallel
 Tausende Rechner = Skalierbarkeit (Clustering)
• Storage (Speichervolumen)
 Schreib- und Lesegeschwindigkeit
 Speicherkapazität vs. Baugrösse (Abmessungen)
 Verdichtung
 Kosten pro Speichereinheit
 Agile, dynamische Skalierbarkeit
• Informations-Korrelation
 Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner
 Idealerweise besteht ein direkter Austausch

Die richtige Antwort ist hyperkonvergente
Infrastruktur

Infrastruktur Gemeinsamkeiten
Hyperkonvergenter Technologie Stack (z.B. NUTANIX)
Hadoop Big Data Open Source Technologie Stack
Commodity
Hardware File SystemMap Reduce
Architecture
x86
CPU
x86
CPU
parallel
Computing
store
explosive Data
NDFSCluster
Cluster
virtual
Infrastructure
OSS virtual
Machine
Commodity
Storage

Vorteile hyperkonvergente Infrastruktur
Big Data Desktop
Virtualisierung
Server
Virtualisierung
Converged
Software
defined
massively
scalable
Server
Flash
Hybrid

Big Data
Hadoop Distributionen
Open Source Projekt Apache Hadoop; die wichtigsten Distributionen

Big Data: Hadoop Software Distributionen

Big Data: Take aways
Grundsätzlicher Paradigmawechsel bei der Technologie
INFRASTRUKTUR STACK
Herausforderungen mit Web-Scale Technologien meistern
Grundprinzipien
• agil statt statisch
• umfassend statt selektiv
• explorativ statt hypothetisch
• parallel statt sequentiell
• offen statt proprietär
• einfach statt komplex
• automatisch statt manuell
• virtuell statt physikalisch
Software Defined Everything!

Big Data – Einführung und Infrastruktur
Danke
für Ihr Interesse

Big Data
Wrap-Up und Abschluss
Urs Zumstein, Senior Consultant, amanox solutions AG

BigData / Enterprise Lösungen
Big Data Applikationen
• Strategie «schema on read» eröffnet neue
Vorgehensweisen, mehr Flexibilität für
während der Produktelaufzeit veränderte
Bedürfnisse
• BigData Lösungen / Public Clouds
• BigData Private Cloud
Hadoop als «Middleware»
• Hadoop wird für verschiedene BigData
Vorhaben eingesetzt
• Hadoop entwickelt sich als Standard Plattform
• Integration auf Enterprise Plattform
Nutanix Plattform
Eine Lösung für verschiedene Workload
• Hadoop / «BigData Lake»
• Virtual Desktop Infrastructures (VDI)
• Server Virtualisierung (Exchange, DB,
Sharepoint, ..)
• Software Defined Networks (SDN)
• Ideale Basis für Orchestration and Automation
(nur zwei Typen API im RZ)
Dienstleistungen
• BigData Analytic Plattform (Plan, Build, Run)
• Technisches Consulting
• DevOps und Engineering (Plan, Build, Run)
• Performance Care Services

Unsere Vision
Cloud Design
Manufacture
ICT Automation and
Standardization
BigData
Infrastructure
Expertise
Application
Performance
Management (APM)
Wir unterstützen unsere Kunden bei der Standardisierung und
Automatisierung Ihrer ICT Services.
Cloud Services
CPU Mem
Software Management Stack
Software Defined Network
App App App

Big Data – Veranstaltung
Die Grenzen der
digitalen Transformation
https://m.youtube.com/watch?v=N8w6COfheoo

Rbu amanox big_data_intro_infrastruktur

Rbu amanox big_data_intro_infrastruktur

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (8)

En vedette

En vedette (9)

Similaire à Rbu amanox big_data_intro_infrastruktur

Similaire à Rbu amanox big_data_intro_infrastruktur (20)

Rbu amanox big_data_intro_infrastruktur