SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
BigData-Schlüsselerfolgsfaktoren aus der Praxis
Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
Agenda Big Data After-Work Seminar @BFH
Zeit Thema Referent
17.30 Begrüssung Dr. Arno Schmidhauser, BFH
17.35 Big Data – Infrastruktur und Software-
Stacks
René Burgener, amanox solutions AG
18.00 BigData – Instrumente, Werkzeuge,
Frameworks und konkrete Use-Cases
Dr. Daniel Fasel, Scigility GmbH
18.50 BigData PaaS – Automatisierung &
Orchestration Frameworks
Matthias Imsand, amanox solutions AG
19.20 Wrap-Up – Zusammenfassung und Take-
away’s
Urs Zumstein, amanox solutions AG
19.30 Abschluss der Veranstaltung – individuelles
Networking
Teilnehmer
Inhalt
BigData-Infrastruktur und Software-Stacks
Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
Senior Consultant
René Burgener
Unsere Herausforderung – digitale Welt 2020
Big Data- Infrastruktur und Software-Stacks
Inhalt
• Big Data – Herausforderungen und Dimension
Die digitale Transformation unseres Alltags
60 Sekunden im Internet Zeitalter
Die Welt im 2020 (IoT - Internet-of-Things)
• Big Data – Die Entstehung der Technologien & Instrumente
• Big Data – Anforderungen an die Infrastruktur
• Big Data – Hadoop Distributionen im Überblick
• Big Data – Take away’s
Unser vernetzter Alltag
Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg
60 Sekunden im Sozial Media Zeitalter
Ausblick auf zukünftige Herausforderungen
Heute
Wie gross wird Big Data wirklich?
Big Data Technologien sorgt dafür,
dass die Welt sich dreht - Heute als auch Morgen
Big Data
Entstehung der Technologien & Instrumente
Paradigmenwechsel, Prinzipien, Publikationen, Technologien
Die Vorreiter der ersten Stunde
• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit
dem Google File System (ein verteiltes Datei-System).
 MapReduce war der Pate für die Entwicklung von Hadoop
 Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)
• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für
Unternehmen
• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache
Open Source Project
• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data
Projekte
• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich
verfügbarem Support und verschieden zusammengesetzten Tools
 Apache Hadoop Project Organisation
 HortonWorks
 Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)
Die 4 V’s von Big Data
Volumen
Vielfalt
(Variety)
Ungenauigkeit
(Veracity)
Geschwindigkeit
(Velocity)
Datenspeicherungsvolumen
Datenbewegung (z.B. Streaming)
Daten in vielen Formen
Datenunschärfe
Die 4 V’s von Big Data
Big Data: Paradigmawechsel
Traditionelles Vorgehen Big Data Vorgehen
Gesamte
Informationsmenge
Gesamter
Datenbestand
wird analysiert
Analysierter
Informations-
Ausschnitt
Analyse von kleinen
Data-Subsets
Analyse des gesamten
Datenbestandes
Big Data: Paradigmawechsel 2
Traditionelles Vorgehen Big Data Vorgehen
Hypothese
Start mit einer Hypothese und
Prüfung gegen die vorhandenen Daten
Erkunde alle vorhandenen Daten
und erkenne die Korrelationen
?


Fragestellung
Antwort Daten

Daten Exloration
KorrelationErkenntnis
Die Vielfalt der Daten (Informationen)
Kunde
Name
Vorname
Kundennummer
Ort
Artikel
Bezeichnung
EAN
Preis
MwSt
KundenNr EAN Netto MwSt Brutto Datum
98273891 CH28309810 12,21 8% 24,05 19.04.15
83691817 CH94839928 81,77 8% 97,31 22.04.15
63879287 CH87687628 2,31 7% 2,47 29.04.15
Relationale DB
- Attribute
- Tupel
SQL Query:
SELECT SUM(BRUTTO) WHERE
KUNDENNR = 123456789
Relationale DB
Parallelverarbeitung
Beispiel: Erkennung von Kreditkartenmissbrauch
Visa hat ca. 2 Mrd.
Kreditkarten weltweit
Kreditkartenunternehmen erstellen
ein Muster aus den Zahlungsdaten
Werden einige Tage später
Einkäufe im Reiseland getätigt,
liegt evtl. ein Missbrauch vor!
Durch Big Data Technologie hat sich die Dauer
der Analyse von 45 Min. auf 4 Sek. verkürzt
Quelle: Bild der Wissenschaft, Ulrich Schmitz
Big Data
Anforderungen an die Infrastruktur
Analogie der Big Data und der Web-Scale Technologien
Die Infrastrukturanforderungen
POWERzu erschwinglichem Preis
• Rechenpower & Datenspeicherkapazität
• Rechner (Verarbeitungsgeschwindigkeit)
 1 Rechner = sequentiell
 Mehrere Rechner = parallel
 Tausende Rechner = Skalierbarkeit (Clustering)
• Storage (Speichervolumen)
 Schreib- und Lesegeschwindigkeit
 Speicherkapazität vs. Baugrösse (Abmessungen)
 Verdichtung
 Kosten pro Speichereinheit
 Agile, dynamische Skalierbarkeit
• Informations-Korrelation
 Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner
 Idealerweise besteht ein direkter Austausch
Die richtige Antwort ist hyperkonvergente
Infrastruktur
Infrastruktur Gemeinsamkeiten
Hyperkonvergenter Technologie Stack (z.B. NUTANIX)
Hadoop Big Data Open Source Technologie Stack
Commodity
Hardware File SystemMap Reduce
Architecture
x86
CPU
x86
CPU
parallel
Computing
store
explosive Data
NDFSCluster
Cluster
virtual
Infrastructure
OSS virtual
Machine
Commodity
Storage
Vorteile hyperkonvergente Infrastruktur
Big Data Desktop
Virtualisierung
Server
Virtualisierung
Converged
Software
defined
massively
scalable
Server
Flash
Hybrid
Big Data
Hadoop Distributionen
Open Source Projekt Apache Hadoop; die wichtigsten Distributionen
Big Data: Hadoop Software Distributionen
Big Data: Take aways
Grundsätzlicher Paradigmawechsel bei der Technologie
INFRASTRUKTUR STACK
Herausforderungen mit Web-Scale Technologien meistern
Grundprinzipien
• agil statt statisch
• umfassend statt selektiv
• explorativ statt hypothetisch
• parallel statt sequentiell
• offen statt proprietär
• einfach statt komplex
• automatisch statt manuell
• virtuell statt physikalisch
Software Defined Everything!
Big Data – Einführung und Infrastruktur
Danke
für Ihr Interesse
Big Data
Wrap-Up und Abschluss
Urs Zumstein, Senior Consultant, amanox solutions AG
BigData / Enterprise Lösungen
Big Data Applikationen
• Strategie «schema on read» eröffnet neue
Vorgehensweisen, mehr Flexibilität für
während der Produktelaufzeit veränderte
Bedürfnisse
• BigData Lösungen / Public Clouds
• BigData Private Cloud
Hadoop als «Middleware»
• Hadoop wird für verschiedene BigData
Vorhaben eingesetzt
• Hadoop entwickelt sich als Standard Plattform
• Integration auf Enterprise Plattform
Nutanix Plattform
Eine Lösung für verschiedene Workload
• Hadoop / «BigData Lake»
• Virtual Desktop Infrastructures (VDI)
• Server Virtualisierung (Exchange, DB,
Sharepoint, ..)
• Software Defined Networks (SDN)
• Ideale Basis für Orchestration and Automation
(nur zwei Typen API im RZ)
Dienstleistungen
• BigData Analytic Plattform (Plan, Build, Run)
• Technisches Consulting
• DevOps und Engineering (Plan, Build, Run)
• Performance Care Services
Unsere Vision
Cloud Design
Manufacture
ICT Automation and
Standardization
BigData
Infrastructure
Expertise
Application
Performance
Management (APM)
Wir unterstützen unsere Kunden bei der Standardisierung und
Automatisierung Ihrer ICT Services.
Cloud Services
CPU Mem
Software Management Stack
Software Defined Network
App App App
Big Data – Veranstaltung
Die Grenzen der
digitalen Transformation
https://m.youtube.com/watch?v=N8w6COfheoo
Rbu amanox big_data_intro_infrastruktur

Contenu connexe

Tendances

Tendances (8)

Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
IBM - Big Value from Big Data
IBM - Big Value from Big DataIBM - Big Value from Big Data
IBM - Big Value from Big Data
 
Ich kann die Datei nicht öffnen!
Ich kann die Datei nicht öffnen!Ich kann die Datei nicht öffnen!
Ich kann die Datei nicht öffnen!
 
Kroll Ontrack Datenverfügbarkeit
Kroll Ontrack DatenverfügbarkeitKroll Ontrack Datenverfügbarkeit
Kroll Ontrack Datenverfügbarkeit
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
Big Data Bullshit Bingo
Big Data Bullshit BingoBig Data Bullshit Bingo
Big Data Bullshit Bingo
 
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017badenIT und psiori - Big Data Services | TDWI Schweiz 2017
badenIT und psiori - Big Data Services | TDWI Schweiz 2017
 
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
 

En vedette

Big Data Expo 2015 - SMT Ware The Age of Software Defined Business
Big Data Expo 2015 - SMT Ware The Age of Software Defined BusinessBig Data Expo 2015 - SMT Ware The Age of Software Defined Business
Big Data Expo 2015 - SMT Ware The Age of Software Defined BusinessBigDataExpo
 
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz
 
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...crentschufdiu
 

En vedette (9)

Big Data Expo 2015 - SMT Ware The Age of Software Defined Business
Big Data Expo 2015 - SMT Ware The Age of Software Defined BusinessBig Data Expo 2015 - SMT Ware The Age of Software Defined Business
Big Data Expo 2015 - SMT Ware The Age of Software Defined Business
 
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
 
Cascading Big Data User Group
Cascading Big Data User GroupCascading Big Data User Group
Cascading Big Data User Group
 
Einführung Big Data
Einführung Big DataEinführung Big Data
Einführung Big Data
 
Big Data - einfach erklärt!
Big Data - einfach erklärt!Big Data - einfach erklärt!
Big Data - einfach erklärt!
 
Big Data & High-Performance-Analytics
Big Data & High-Performance-AnalyticsBig Data & High-Performance-Analytics
Big Data & High-Performance-Analytics
 
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...
Digital Tranformation: Überleben im Zeitalter von Big Data, Industrie 4.0 und...
 
Warehousing
WarehousingWarehousing
Warehousing
 
BigData?
BigData?BigData?
BigData?
 

Similaire à Rbu amanox big_data_intro_infrastruktur

SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE Project
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewOMM Solutions GmbH
 
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16Boris Adryan
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14inovex GmbH
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb
 
Digitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsDigitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsMatthias Stürmer
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopCloudera, Inc.
 
Internet of Things Architecture
Internet of Things ArchitectureInternet of Things Architecture
Internet of Things ArchitectureChristian Waha
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Semantic Web Company
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Cloudera, Inc.
 
Cloud Computing - auch für Geschäftsanwendungen - Peter Jaeschke
Cloud Computing - auch für Geschäftsanwendungen - Peter JaeschkeCloud Computing - auch für Geschäftsanwendungen - Peter Jaeschke
Cloud Computing - auch für Geschäftsanwendungen - Peter JaeschkeIPM-FHS
 

Similaire à Rbu amanox big_data_intro_infrastruktur (20)

SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16
Plattformen für das Internet der Dinge, solutions.hamburg, 05.09.16
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
Pressemitteilung: Webinar "Elasticsearch und Big Data" am 23.07.14
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
Digitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsDigitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open Clouds
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
 
Internet of Things Architecture
Internet of Things ArchitectureInternet of Things Architecture
Internet of Things Architecture
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Big Data Appliances
Big Data AppliancesBig Data Appliances
Big Data Appliances
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
Cloud Computing - auch für Geschäftsanwendungen - Peter Jaeschke
Cloud Computing - auch für Geschäftsanwendungen - Peter JaeschkeCloud Computing - auch für Geschäftsanwendungen - Peter Jaeschke
Cloud Computing - auch für Geschäftsanwendungen - Peter Jaeschke
 

Rbu amanox big_data_intro_infrastruktur

  • 1. BigData-Schlüsselerfolgsfaktoren aus der Praxis Anforderungen und Alternativen Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
  • 2. Agenda Big Data After-Work Seminar @BFH Zeit Thema Referent 17.30 Begrüssung Dr. Arno Schmidhauser, BFH 17.35 Big Data – Infrastruktur und Software- Stacks René Burgener, amanox solutions AG 18.00 BigData – Instrumente, Werkzeuge, Frameworks und konkrete Use-Cases Dr. Daniel Fasel, Scigility GmbH 18.50 BigData PaaS – Automatisierung & Orchestration Frameworks Matthias Imsand, amanox solutions AG 19.20 Wrap-Up – Zusammenfassung und Take- away’s Urs Zumstein, amanox solutions AG 19.30 Abschluss der Veranstaltung – individuelles Networking Teilnehmer Inhalt
  • 3. BigData-Infrastruktur und Software-Stacks Anforderungen und Alternativen Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015 Senior Consultant René Burgener
  • 4. Unsere Herausforderung – digitale Welt 2020
  • 5.
  • 6. Big Data- Infrastruktur und Software-Stacks Inhalt • Big Data – Herausforderungen und Dimension Die digitale Transformation unseres Alltags 60 Sekunden im Internet Zeitalter Die Welt im 2020 (IoT - Internet-of-Things) • Big Data – Die Entstehung der Technologien & Instrumente • Big Data – Anforderungen an die Infrastruktur • Big Data – Hadoop Distributionen im Überblick • Big Data – Take away’s
  • 7. Unser vernetzter Alltag Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg
  • 8. 60 Sekunden im Sozial Media Zeitalter
  • 9. Ausblick auf zukünftige Herausforderungen Heute
  • 10. Wie gross wird Big Data wirklich?
  • 11. Big Data Technologien sorgt dafür, dass die Welt sich dreht - Heute als auch Morgen
  • 12. Big Data Entstehung der Technologien & Instrumente Paradigmenwechsel, Prinzipien, Publikationen, Technologien
  • 13. Die Vorreiter der ersten Stunde • Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit dem Google File System (ein verteiltes Datei-System).  MapReduce war der Pate für die Entwicklung von Hadoop  Das Google File System war der Pate für das Hadoop Distributed File System (HDFS) • Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für Unternehmen • Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache Open Source Project • Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data Projekte • Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich verfügbarem Support und verschieden zusammengesetzten Tools  Apache Hadoop Project Organisation  HortonWorks  Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)
  • 14. Die 4 V’s von Big Data Volumen Vielfalt (Variety) Ungenauigkeit (Veracity) Geschwindigkeit (Velocity) Datenspeicherungsvolumen Datenbewegung (z.B. Streaming) Daten in vielen Formen Datenunschärfe
  • 15. Die 4 V’s von Big Data
  • 16. Big Data: Paradigmawechsel Traditionelles Vorgehen Big Data Vorgehen Gesamte Informationsmenge Gesamter Datenbestand wird analysiert Analysierter Informations- Ausschnitt Analyse von kleinen Data-Subsets Analyse des gesamten Datenbestandes
  • 17. Big Data: Paradigmawechsel 2 Traditionelles Vorgehen Big Data Vorgehen Hypothese Start mit einer Hypothese und Prüfung gegen die vorhandenen Daten Erkunde alle vorhandenen Daten und erkenne die Korrelationen ?   Fragestellung Antwort Daten  Daten Exloration KorrelationErkenntnis
  • 18. Die Vielfalt der Daten (Informationen) Kunde Name Vorname Kundennummer Ort Artikel Bezeichnung EAN Preis MwSt KundenNr EAN Netto MwSt Brutto Datum 98273891 CH28309810 12,21 8% 24,05 19.04.15 83691817 CH94839928 81,77 8% 97,31 22.04.15 63879287 CH87687628 2,31 7% 2,47 29.04.15 Relationale DB - Attribute - Tupel SQL Query: SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789 Relationale DB Parallelverarbeitung
  • 19. Beispiel: Erkennung von Kreditkartenmissbrauch Visa hat ca. 2 Mrd. Kreditkarten weltweit Kreditkartenunternehmen erstellen ein Muster aus den Zahlungsdaten Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein Missbrauch vor! Durch Big Data Technologie hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt Quelle: Bild der Wissenschaft, Ulrich Schmitz
  • 20. Big Data Anforderungen an die Infrastruktur Analogie der Big Data und der Web-Scale Technologien
  • 21. Die Infrastrukturanforderungen POWERzu erschwinglichem Preis • Rechenpower & Datenspeicherkapazität • Rechner (Verarbeitungsgeschwindigkeit)  1 Rechner = sequentiell  Mehrere Rechner = parallel  Tausende Rechner = Skalierbarkeit (Clustering) • Storage (Speichervolumen)  Schreib- und Lesegeschwindigkeit  Speicherkapazität vs. Baugrösse (Abmessungen)  Verdichtung  Kosten pro Speichereinheit  Agile, dynamische Skalierbarkeit • Informations-Korrelation  Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner  Idealerweise besteht ein direkter Austausch
  • 22. Die richtige Antwort ist hyperkonvergente Infrastruktur
  • 23. Infrastruktur Gemeinsamkeiten Hyperkonvergenter Technologie Stack (z.B. NUTANIX) Hadoop Big Data Open Source Technologie Stack Commodity Hardware File SystemMap Reduce Architecture x86 CPU x86 CPU parallel Computing store explosive Data NDFSCluster Cluster virtual Infrastructure OSS virtual Machine Commodity Storage
  • 24. Vorteile hyperkonvergente Infrastruktur Big Data Desktop Virtualisierung Server Virtualisierung Converged Software defined massively scalable Server Flash Hybrid
  • 25. Big Data Hadoop Distributionen Open Source Projekt Apache Hadoop; die wichtigsten Distributionen
  • 26. Big Data: Hadoop Software Distributionen
  • 27. Big Data: Take aways Grundsätzlicher Paradigmawechsel bei der Technologie INFRASTRUKTUR STACK Herausforderungen mit Web-Scale Technologien meistern Grundprinzipien • agil statt statisch • umfassend statt selektiv • explorativ statt hypothetisch • parallel statt sequentiell • offen statt proprietär • einfach statt komplex • automatisch statt manuell • virtuell statt physikalisch Software Defined Everything!
  • 28. Big Data – Einführung und Infrastruktur Danke für Ihr Interesse
  • 29. Big Data Wrap-Up und Abschluss Urs Zumstein, Senior Consultant, amanox solutions AG
  • 30. BigData / Enterprise Lösungen Big Data Applikationen • Strategie «schema on read» eröffnet neue Vorgehensweisen, mehr Flexibilität für während der Produktelaufzeit veränderte Bedürfnisse • BigData Lösungen / Public Clouds • BigData Private Cloud Hadoop als «Middleware» • Hadoop wird für verschiedene BigData Vorhaben eingesetzt • Hadoop entwickelt sich als Standard Plattform • Integration auf Enterprise Plattform Nutanix Plattform Eine Lösung für verschiedene Workload • Hadoop / «BigData Lake» • Virtual Desktop Infrastructures (VDI) • Server Virtualisierung (Exchange, DB, Sharepoint, ..) • Software Defined Networks (SDN) • Ideale Basis für Orchestration and Automation (nur zwei Typen API im RZ) Dienstleistungen • BigData Analytic Plattform (Plan, Build, Run) • Technisches Consulting • DevOps und Engineering (Plan, Build, Run) • Performance Care Services
  • 31. Unsere Vision Cloud Design Manufacture ICT Automation and Standardization BigData Infrastructure Expertise Application Performance Management (APM) Wir unterstützen unsere Kunden bei der Standardisierung und Automatisierung Ihrer ICT Services. Cloud Services CPU Mem Software Management Stack Software Defined Network App App App
  • 32. Big Data – Veranstaltung Die Grenzen der digitalen Transformation https://m.youtube.com/watch?v=N8w6COfheoo