2. Agenda Big Data After-Work Seminar @BFH
Zeit Thema Referent
17.30 Begrüssung Dr. Arno Schmidhauser, BFH
17.35 Big Data – Infrastruktur und Software-
Stacks
René Burgener, amanox solutions AG
18.00 BigData – Instrumente, Werkzeuge,
Frameworks und konkrete Use-Cases
Dr. Daniel Fasel, Scigility GmbH
18.50 BigData PaaS – Automatisierung &
Orchestration Frameworks
Matthias Imsand, amanox solutions AG
19.20 Wrap-Up – Zusammenfassung und Take-
away’s
Urs Zumstein, amanox solutions AG
19.30 Abschluss der Veranstaltung – individuelles
Networking
Teilnehmer
Inhalt
6. Big Data- Infrastruktur und Software-Stacks
Inhalt
• Big Data – Herausforderungen und Dimension
Die digitale Transformation unseres Alltags
60 Sekunden im Internet Zeitalter
Die Welt im 2020 (IoT - Internet-of-Things)
• Big Data – Die Entstehung der Technologien & Instrumente
• Big Data – Anforderungen an die Infrastruktur
• Big Data – Hadoop Distributionen im Überblick
• Big Data – Take away’s
12. Big Data
Entstehung der Technologien & Instrumente
Paradigmenwechsel, Prinzipien, Publikationen, Technologien
13. Die Vorreiter der ersten Stunde
• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit
dem Google File System (ein verteiltes Datei-System).
MapReduce war der Pate für die Entwicklung von Hadoop
Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)
• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für
Unternehmen
• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache
Open Source Project
• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data
Projekte
• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich
verfügbarem Support und verschieden zusammengesetzten Tools
Apache Hadoop Project Organisation
HortonWorks
Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)
14. Die 4 V’s von Big Data
Volumen
Vielfalt
(Variety)
Ungenauigkeit
(Veracity)
Geschwindigkeit
(Velocity)
Datenspeicherungsvolumen
Datenbewegung (z.B. Streaming)
Daten in vielen Formen
Datenunschärfe
16. Big Data: Paradigmawechsel
Traditionelles Vorgehen Big Data Vorgehen
Gesamte
Informationsmenge
Gesamter
Datenbestand
wird analysiert
Analysierter
Informations-
Ausschnitt
Analyse von kleinen
Data-Subsets
Analyse des gesamten
Datenbestandes
17. Big Data: Paradigmawechsel 2
Traditionelles Vorgehen Big Data Vorgehen
Hypothese
Start mit einer Hypothese und
Prüfung gegen die vorhandenen Daten
Erkunde alle vorhandenen Daten
und erkenne die Korrelationen
?
Fragestellung
Antwort Daten
Daten Exloration
KorrelationErkenntnis
18. Die Vielfalt der Daten (Informationen)
Kunde
Name
Vorname
Kundennummer
Ort
Artikel
Bezeichnung
EAN
Preis
MwSt
KundenNr EAN Netto MwSt Brutto Datum
98273891 CH28309810 12,21 8% 24,05 19.04.15
83691817 CH94839928 81,77 8% 97,31 22.04.15
63879287 CH87687628 2,31 7% 2,47 29.04.15
Relationale DB
- Attribute
- Tupel
SQL Query:
SELECT SUM(BRUTTO) WHERE
KUNDENNR = 123456789
Relationale DB
Parallelverarbeitung
19. Beispiel: Erkennung von Kreditkartenmissbrauch
Visa hat ca. 2 Mrd.
Kreditkarten weltweit
Kreditkartenunternehmen erstellen
ein Muster aus den Zahlungsdaten
Werden einige Tage später
Einkäufe im Reiseland getätigt,
liegt evtl. ein Missbrauch vor!
Durch Big Data Technologie hat sich die Dauer
der Analyse von 45 Min. auf 4 Sek. verkürzt
Quelle: Bild der Wissenschaft, Ulrich Schmitz
23. Infrastruktur Gemeinsamkeiten
Hyperkonvergenter Technologie Stack (z.B. NUTANIX)
Hadoop Big Data Open Source Technologie Stack
Commodity
Hardware File SystemMap Reduce
Architecture
x86
CPU
x86
CPU
parallel
Computing
store
explosive Data
NDFSCluster
Cluster
virtual
Infrastructure
OSS virtual
Machine
Commodity
Storage
27. Big Data: Take aways
Grundsätzlicher Paradigmawechsel bei der Technologie
INFRASTRUKTUR STACK
Herausforderungen mit Web-Scale Technologien meistern
Grundprinzipien
• agil statt statisch
• umfassend statt selektiv
• explorativ statt hypothetisch
• parallel statt sequentiell
• offen statt proprietär
• einfach statt komplex
• automatisch statt manuell
• virtuell statt physikalisch
Software Defined Everything!
28. Big Data – Einführung und Infrastruktur
Danke
für Ihr Interesse
29. Big Data
Wrap-Up und Abschluss
Urs Zumstein, Senior Consultant, amanox solutions AG
30. BigData / Enterprise Lösungen
Big Data Applikationen
• Strategie «schema on read» eröffnet neue
Vorgehensweisen, mehr Flexibilität für
während der Produktelaufzeit veränderte
Bedürfnisse
• BigData Lösungen / Public Clouds
• BigData Private Cloud
Hadoop als «Middleware»
• Hadoop wird für verschiedene BigData
Vorhaben eingesetzt
• Hadoop entwickelt sich als Standard Plattform
• Integration auf Enterprise Plattform
Nutanix Plattform
Eine Lösung für verschiedene Workload
• Hadoop / «BigData Lake»
• Virtual Desktop Infrastructures (VDI)
• Server Virtualisierung (Exchange, DB,
Sharepoint, ..)
• Software Defined Networks (SDN)
• Ideale Basis für Orchestration and Automation
(nur zwei Typen API im RZ)
Dienstleistungen
• BigData Analytic Plattform (Plan, Build, Run)
• Technisches Consulting
• DevOps und Engineering (Plan, Build, Run)
• Performance Care Services
31. Unsere Vision
Cloud Design
Manufacture
ICT Automation and
Standardization
BigData
Infrastructure
Expertise
Application
Performance
Management (APM)
Wir unterstützen unsere Kunden bei der Standardisierung und
Automatisierung Ihrer ICT Services.
Cloud Services
CPU Mem
Software Management Stack
Software Defined Network
App App App
32. Big Data – Veranstaltung
Die Grenzen der
digitalen Transformation
https://m.youtube.com/watch?v=N8w6COfheoo