Elasticsearch und Big Data - Webinar vom 23.07.2014

•

3 j'aime•1,804 vues

Immer mehr Unternehmen stehen vor der Herausforderung, Daten analysieren zu müssen, die aus sehr unterschiedlichen Quellen kommen. Grundsätzlich sind Big-Data-Systeme genau richtig für diese Aufgabe - aber diese Systeme können beliebig komplex werden und rentieren sich nicht bei jedem Use Case. Mit Elasticsearch ist es ohne großen Aufwand möglich, heterogene Datenquellen zu kombinieren und interaktiv zu analysieren. Im Zusammenspiel mit Kibana als Frontend bietet Elasticsearch einen sehr einfachen, aber gleichzeitig höchst leistungsfähigen Einstieg in Big-Data-Szenarien. So möchte beispielsweise unser Kunde ProSiebenSat.1 wissen, was die Schaltung von TV-Spots für den Traffic auf den beworbenen Portalen bringt. Zwei Datenquellen sind für die Klärung der Fragestellung relevant: WebTrekk-Daten und Informationen über die Schaltzeiten der TV Spots. Diese notwendige Kombination der beiden Quellsysteme und das Erstellen einer interaktiven Analysemöglichkeit für das Gewinnen von „Data Insights" ist mit Elasticsearch & Kibana in nur wenigen Tagen realisierbar. In unserem Webinar "Elasticsearch und Big Data" geben wir eine kurze Einführung in Elasticsearch und zeigen dann am Beispiel der Lösung für ProSiebenSat.1 konkret, wie leicht sich Elasticsearch für die Analyse von heterogenen Daten einsetzen lässt. Anschließend stehen wir Ihnen für Ihre Fragen gerne zur Verfügung. Referent Bernhard Pflugfelder arbeitet bei der inovex GmbH als Big Data Engineer im Bereich Search-based Applications und Data Analytics. Dort beschäftigt er sich vor allem mit Java Technolologien wie u.a. Apache Hadoop, Apache Mahout, Apache Lucene sowie Elasticsearch und Apache Solr.

Technologie

“Elasticsearch und Big Data”
Bernhard Pflugfelder
inovex GmbH
23.07.2014

2
‣ Big Data Engineer @ inovex
‣ Erfahren in den Bereichen:
‣ search
‣ analytics
‣ big data
‣ bi
‣ Arbeite u.a. mit:
‣ Lucene
‣ Solr
‣ Elasticsearch
‣ Hadoop Ecosystem
‣ bpflugfelder@inovex.de
Bernhard Pflugfelder

‣ Demo “media analytics” @ ProsiebenSat.1
‣ “Elasticsearch in a nutshell”
‣ Import von Daten in Elasticsearch
‣ Datananalyse mit Elasticsearch
Agenda

5
Analyse von Big Data
mit Elasticsearch

6
Elasticsearch in a nutshell
Lucene
“unter der
Haube”
skalierbar
dokumenten
orientiert
Plugin
Architektur
Multi tenancy
REST &
JSON

7
Überblick Architektur
Hochverfügbarkeit + Fehlertoleranz
Primary Shard Replica Shard
1 2 3
Master node
321
Node
21 3
Node
JSON
Input
JSON
Output

8
real-time get
Datentypen
Mapping
(Schema)
Queries
insert,
update,
delete
snapshot &
backup
Elasticsearch – eine dokumentenorientierte Datenbank

10
Import von Daten in Elasticsearch
flume
index api http bindings
logstash
spring-data-
elasticsearch
hadoop-
elasticsearch

11logstash
logstash
log collection and management tool
collects, parses and stores log events
became part of the ELK stack
seamless integration with elasticsearch
plugin architecture
expect that logstash will be promoted to a more general ingestion pipeline
Plugin
Architektur
Verarbeitung
v. Logdaten
Integration
mit ES
inputs,
codecs,
filters,
outputs

12
getting data into elasticsearch
elasticsearch & hadoop
from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/
MapReduce Hive Pig Spark

14
Datananalyse mit Elasticsearch
Sie kennen Facetten?

15
Datananalyse mit Elasticsearch
Visualisierung von Facetten für explorative Analyse

16
Datananalyse mit Elasticsearch
Das Aggregations Framework (aggs)
‣ explorative Analyse
‣ slicing & dicing
‣ drilldown
‣ interaktiv
‣ schnelle Berechnung durch in-
memory Datenstruktur field data
‣ über search api ausführbar
‣ json in / json out

Bucket aggs
Für das Aufteilen der originalen Menge
an Dokumenten in separate
Teilmengen von Dokumenten
(buckets).
Metric aggs
Für die Berechnung von spezifischen
Metriken über eine Menge von
Dokumenten.
Die Berechnung basiert auf einer
Aggregation über alle Dokumente pro
“bucket”.
17
Das Aggregations Framework (aggs)
2 Aggregationstypen

‣ terms
‣ range
‣ date range
‣ histogram
‣ date histogram
‣ geo distance
‣ geohash grid
‣ ...
‣ min
‣ max
‣ sum
‣ avg
‣ value count
‣ percentiles
‣ cardinality
‣ ...
18
Das Aggregations Framework (aggs)
Viele Aggregators adhoc verfügbar

$my_aggregation: 19 Das Aggregations Framework (aggs) spezifische Analysen durch “nested aggregators” realisierbar "aggregations": { "<aggregation_name>": { "<aggregation_type>": { <aggregation_body> }, ["aggregations": { [<sub_aggregation>]* }] } [,"<aggregation_name_2>": { … }]* } bucket 1 bucket 2 bucket n metrics…$

20
‣ Elasticsearch für Datenanalyse:
‣ Aggregations Framework
‣ Analyse auch von Streamdaten
‣ ELK stack (ingestion + analysis + visualization)
‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten
‣ Elasticsearch für Big Data
‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse
‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR)
‣ Import von großen Datenmengen über logstash oder flume
Zusammenfassung

21
Vielen Dank für Ihre Aufmerksamkeit!
Kontakt
inovex GmbH
Bernhard Pflugfelder
Big Data Engineer
Cell: +49 173 3181-088
Mail: bernhard.pflugfelder@inovex.de
inovex GmbH
Ludwig-Erhard-Allee 6
76131 Karlsruhe
Tel.: +49 721 619 021-0
info@inovex.de
www.inovex.de

Contenu connexe

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014

Klassische BI-Tools integrieren mit Big Data-Technologien, wie geht das am geschicktesten? Wir stellen ein Projekt bei ProSiebenSat.1 vor, in dem wir klassische open-source ETL-Tools zur DWH-Bewirtschaftung mit Hadoop-Werkzeugen mischen. Das relationale DWH wird mit Hadoop-aggregierten Daten aus heterogenen Quellen befüllt. Wie das alles funktioniert und welche Rolle Hadoop, das DWH, Pig und Hive dabei spielen, möchten wir in diesem Vortrag erklären.

Fusion der Welten: Hadoop als DWH-Backend bei ProSieben

inovex GmbH

Datengetriebene Anwendungssysteme wie Business Intelligence oder Big Data Lösungen haben ihre ganz eigenen Herausforderungen sowohl in der Entwicklung als auch im Betrieb: BI- und Big Data Anwendungen integrieren in der Regel Informationen aus vielen verschiedenen Vorsystemen und habe entsprechend viele Schnittstellen. Die beste Implementierung liefert keinen Nutzen, wenn die Datenqualität nicht das hält, was sie verspricht. Die Performance der Anwendungen hängt massiv vom Datenvolumen ab, das in Entwicklungs- und Testumgebungen nicht zur Verfügung steht. Agile Konzepte wie DevOps, Test Driven Deveolpment und Scrum liefern hervorragend geeignete methodische Ansätze, um diesen Herausforderungen erfolgreich zu begegnen. In diesem Vortrag möchte ich einige Best Practices vorstellen, wie sich diese agilen Methoden in „Data-driven Applications“ erfolgreich einsetzen lassen und wie Open Source Werkzeuge uns in unseren Projekten dabei unterstützen.

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte

inovex GmbH

Hadoop in modernen BI-Infrastrukturen

inovex GmbH

User targeting via Tag Manager variables - Analytics Segments on Fire

Dustin Recko

Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward

get traction GmbH

Das Internet der Dinge erfreut sich immer größerer Beliebtheit. Dabei setzen aufgrund der Einfachheit, Skalierbarkeit und Funktionsvielfalt immer mehr Unternehmen auf die Open Source IoT Plattform ThingsBoard. Im ersten Drittel des Talk wird eine praktische Einführung in die Plattform gegeben. Anschließend werden wir uns zusammen eine skalierende Architektur anschauen, mit der hunderttausende Sensoren mit Millionen Metriken performant verarbeitet werden können. Im letzten Drittel werden wir uns die Möglichkeiten zur Visualisierung der gewonnenen Daten, die Anomalie-Erkennung und verschiedene Auswertungen auf der Basis von ThingsBoard Trendz anschauen. Somit erhält der Zuhörer einen kompletten Einstieg in die umfangreiche Funktionalität von ThingsBoard.

OSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger Koch

NETWAYS

Java Forum - Unlock Your Logs

Accsonaut Cody

Der Talk wurde am 25.09.2013 auf der Java User Group Frankfurt gehalten und gibt einen Überblick und Einstieg in MongoDB aus der Sicht eines Java-Programmierers. Dabei werden folgende Themen behandelt: - Buzzword Bingo: NoSQL, Big Data, Horizontale Skalierung, CAP-Theorem, Eventual Consistency - Übersicht über MongoDB - Datenmanipulation: CRUD, Aggregation Framework, Map/Reduce - Indexing - Konsistenz beim Schreiben und Lesen von Daten - Java API & Frameworks

MongoDB für Java-Programmierer

Uwe Printz

Back to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDB

MongoDB

Der Talk wurde am 11.12.2013 auf der Java User Group Karlsruhe gehalten und gibt einen Überblick und Einstieg in MongoDB aus der Sicht eines Java-Programmierers. Dabei werden folgende Themen behandelt: - Buzzword Bingo: NoSQL, Big Data, Horizontale Skalierung, CAP-Theorem, Eventual Consistency - Übersicht über MongoDB - Datenmanipulation: CRUD, Aggregation Framework, Map/Reduce - Indexing - Konsistenz beim Schreiben und Lesen von Daten - Java API & Frameworks

MongoDB für Java Programmierer (JUGKA, 11.12.13)

Uwe Printz

Anwendungen nativ für den Betrieb in der Cloud auszulegen, ist der Architekturstil der Stunde: Microservices, 12-Factor Apps und Serverless-Architecturen sind en vogue. Daneben gibt es Java EE, das sich über Jahre bewährt hat beim Bau von Java-Anwendungen fürs Unternehmen. Java-EE-Anwendungen im modernen Cloud-Native-Stil zu entwickeln- ist kein Widerspruch, sondern ein Zugewinn: Man kann damit Enterprise-Anwendungen bauen, die reif für die Cloud-Ära sind. Der Vortrag zeigt am laufenden Beispiel, wie man eine Cloud-Native-Java-EE-Anwendung entwickelt und wie sich Java-EE-APIs wie JAX-RS, CDI und JPA integrieren mit Cloud-Native-Infrastruktur wie DC/OS, Kubernetes, Hystrix, Traefik, Consul und Docker. Dabei wird nicht nur blanke Technologie gezeigt, sondern auch das Thema Cloud Native Java EE auf Architekturebene betrachtet.

Cloud Native und Java EE: Freund oder Feind?

Josef Adersberger

JavaLand 2017, Brühl: Vortrag von Josef Adersberger (@adersberger, CTO bei QAware) Abstract: Anwendungen nativ für den Betrieb in der Cloud auszulegen, ist der Architekturstil der Stunde: Microservices, 12-Factor Apps und Serverless-Architecturen sind en vogue. Daneben gibt es Java EE, das sich über Jahre bewährt hat beim Bau von Java-Anwendungen fürs Unternehmen. Java-EE-Anwendungen im modernen Cloud-Native-Stil zu entwickeln ist kein Widerspruch, sondern ein Zugewinn: Man kann damit Enterprise-Anwendungen bauen, die reif für die Cloud-Ära sind. Der Vortrag zeigt am laufenden Beispiel, wie man eine Cloud-Native-Java-EE-Anwendung entwickelt und wie sich Java-EE-APIs wie JAX-RS, CDI und JPA integrieren mit Cloud-Native-Infrastruktur wie DC/OS, Kubernetes, Hystrix, Traefik, Consul und Docker. Dabei wird nicht nur blanke Technologie gezeigt, sondern auch das Thema Cloud Native Java EE auf Architekturebene betrachtet.

Cloud Native & Java EE: Freund oder Feind?

QAware GmbH

Die Aufzeichnung dieses Webinars steht demnächst hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/ Big Data ist eines der großen Schlagworte der letzten Jahre. Aber was ist das? In vielen Unternehmen gibt es heute große Datenbestände, die nicht oder nicht ausreichend genutzt werden. Das können Logfiles eines Webservers, Bon-Daten eines Einzelhandelsunternehmens oder Sensordaten einer Produktionsstraße sein. In diesem Webinar geben wir einen Überblick über Big Data und die benutzten Technologien.

Big Data Webinar (Deutsch)

AWS Germany

Visualisierung bibliographischer Daten

Ralf Stockmann

MongoDB Einführung

Tobias Trelle

Der Vortrag zeigt, wie komplexe und datenlastige Big-Data-Technolgien instantalliert und bedarfsorientiert deployt werden können. Dafür werden diese mit Docker containerisiert und mithilfe von Kubernetes und Helm in der Cloud oder auf On-Premises-Hardware ausgeführt. Dabei erfolgt der Bau der Containerimages sowie das Deployment automatisiert mittels GitLab CI. Auf diese Weise können aktuelle Releases risikofrei erprobt und das Zusammenspiel einzelner Komponenten in größeren Architekturen evaluiert werden. Zur Demonstration werden wir ein solches Deployment für einen Zeppelin-Spark-Kafka-Stack in der Google Cloud zeigen und auf die Herausforderungen von Speicher- und Zustandshaltung eingehen. Event: data2day 2017, 27.09.2017 Speaker: Hans-Peter Zorn, Nico Kreiling, inovex Mehr Tech-Vorträge: https://www.inovex.de/de/content-pool/vortraege/ Tech-Blog: https://www.inovex.de/blog/

SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD

inovex GmbH

Back to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und Geoindizes

MongoDB

Einführung in Elasticsearch

Florian Hopf

Einführung in NoSQL-Datenbanken

Tobias Trelle

Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud

Andreas Günzel

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014 (20)

Fusion der Welten: Hadoop als DWH-Backend bei ProSieben

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte

Hadoop in modernen BI-Infrastrukturen

User targeting via Tag Manager variables - Analytics Segments on Fire

Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward

OSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger Koch

Java Forum - Unlock Your Logs

MongoDB für Java-Programmierer

Back to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDB

MongoDB für Java Programmierer (JUGKA, 11.12.13)

Cloud Native und Java EE: Freund oder Feind?

Cloud Native & Java EE: Freund oder Feind?

Big Data Webinar (Deutsch)

Visualisierung bibliographischer Daten

MongoDB Einführung

SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD

Back to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und Geoindizes

Einführung in Elasticsearch

Einführung in NoSQL-Datenbanken

Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud

Plus de inovex GmbH

lldb kann mehr als nur einfache Breakpoints oder po. In dem Vortrag zeigt Oliver Bayer, wie sich mit Hilfe von lldb Programmcode zur Ausführungszeit manipulieren lässt, ohne das hierfür der Sourcecode anzupassen ist. Sei es, damit Test- oder Debugcode nicht in die produktiv App gelangt, oder weil der Sourcecode für einen Teil der App nicht vorliegt. Event: macoun, 04.10.2019 Speaker: Oliver Bayer, inovex Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

lldb – Debugger auf Abwegen

inovex GmbH

With the advent of Deep Learning (DL), the field of AI made a giant leap forward and it is nowadays applied in many industrial use-cases. Especially critical systems like autonomous driving, require that DL methods not only produce a prediction but also state the certainty about the prediction in order to assess risks and failure. In my talk, I will give an introduction to different kinds of uncertainty, i.e. epistemic and aleatoric. To have a baseline for comparison, the classical method of Gaussian Processes for regression problems is presented. I then elaborate on different DL methods for uncertainty quantification like Quantile Regression, Monte-Carlo Dropout, and Deep Ensembles. The talk is concluded with a comparison of these techniques to Gaussian Processes and the current state of the art. Speaker: Dr. Florian Wilhelm, Simon Bachstein, inovex Event: PyCon/PyData Berlin 2019 Datum: 10.10.2019 Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Are you sure about that?! Uncertainty Quantification in AI

inovex GmbH

In 2010 ImageNet finally ended the AI winter and gave machines the sense of sight. Within the following years dramatic improvements in tasks such as image classification and object detection lead to innovations like face ID and autonomous driving. Recently, similar developments happened in the field of natural language. Using Attention mechanism and transformers tasks such as question answering and text summarization reached new benchmarks. This talk will not only explain those, but point out how Transfer Learning and open source models such as Google Bert will open the field to new innovations in AI. Speaker: Nico Kreiling, inovex Event: AIxIA, 01.10.2019 Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Why natural language is next step in the AI evolution

inovex GmbH

Die Worldwide Developers Conference (WWDC) ist eine von Apple jährlich durchgeführte Konferenz für Software-Entwickler (MacOS, iOS und WatchOS). Um die WWDC 2019 nochmal Revue passieren zu lassen, wurde beim Mobile Development Karlsruhe Meetup zu einer offenen Diskussionsrunde eingeladen. Die Slides fassen die für inovexler Philipp interessantesten Neuigkeiten der WWDC2019 zusammen und dienten beim Meetup als Diskussionsgrundlage. Event: 9. Mobile Development Meetup (WWDC Edition) Speaker: Philipp Wallrich, inovex Datum: 17.06.2019 Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

WWDC 2019 Recap

inovex GmbH

Trust is good, control is better – A short story about Network Policies. Abstract: Probably everybody who uses Kubernetes in a productive environment with multiple users possibly has looked at policies. Often the operators of the cluster(s) just trust the policies but in some cases it might be useful to control if the policies actually have taken action and often there are just to many Policies in the cluster setup to manually test them all (and obviously you don’t want to do this). Testing the effectiveness of the Network Policies can be done in different approaches. In this talk we will show you the benefits and drawbacks of different approaches and what solution we finally chose. Also we will show you some other tools and how they complement our solution. As a takeaway you will get an overview of different testing strategies for policies, as well as understanding challenges in testing policies in general and the Kubernetes ecosystem. Event: ContainerDays 2019 Datum: 26.06.2019 Speaker: Johannes M. Scheuermann, Maximilian Bischoff (beide inovex) Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Network Policies

inovex GmbH

Interpretierbarkeit von ML-Modellen hat die Zielsetzung, die Ursachen einer Prognose offenzulegen und eine daraus abgeleitete Entscheidung für einen Menschen nachvollziehbar zu erklären. Durch die Nachvollziehbarkeit von Prognosen lässt sich beispielsweise sicherstellen, dass deren Herleitung konsistent zum Domänenwissen eines Experten ist. Auch ein unfairer Bias lässt sich durch die Erklärung aussagekräftiger Beispiele identifizieren. Prognosemodelle lassen sich grob in intrinsisch interpretierbare Modelle und nicht-interpretierbare (auch Blackbox-) Modelle unterscheiden. Intrinsisch interpretierbare Modelle sind dafür bekannt, dass sie für einen Menschen leicht nachvollziehbar sind. Ein typisches Beispiel für ein solches Modell ist der Entscheidungsbaum, dessen regelbasierter Entscheidungsprozess intuitiv und leicht zugänglich ist. Im Gegensatz dazu gelten Neuronale Netze als Blackbox-Modelle, deren Prognosen durch die komplexe Netzstruktur schwer nachvollziehbar sind. In diesem Talk erläuterte Marcel Spitzer das Konzept von Interpretierbarkeit im Kontext von Machine Learning und stellte gängige Verfahren zur Interpretation von Modellen vor. Besonderen Fokus legte er dabei auf modellunabhängige Verfahren, die sich auch auf prognosestarke Blackbox-Modelle anwenden lassen. Event: M3 Minds Mastering Machines Speaker: Marcel Spitzer Blog-Artikel: https://www.inovex.de/blog/machine-learning-interpretability/ Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Interpretable Machine Learning

inovex GmbH

Das Ökosystem rund um Kubernetes wächst täglich. Insbesondere cloud-native Continuous-Deployment-Strategien stehen Hoch im Kurs und werden in diversen Open-Source-Projekten vorangetrieben. In einer Reihe von Evalutionen nimmt inovex diese Tools genauer unter die Lupe - den Anfang macht Jenkins X. Jenkins X wurde im März 2018 veröffentlicht. Das Konzept hinter dem Tool ist primär, bestehende Teillösungen (Helm, Skaffold, Prow, Tekton) einzusetzen, um sie abstrahiert in ein Kommandozeilen-Interface zu packen. Der Vortrag beschreibt sowohl die klassische Architektur als auch den "Severless"-Ansatz. Des weiteren werden das Kommandozeilen-Tool "jx", der allgemeine Entwicklungs-Workflow sowie diverse Features vorgestellt. Bei unseren Tests im Rahmen der Evaluation sind uns einige Stolpersteine aufgefallen. Es sind vor allem die vielen eingesetzten Dritt-Tools, die den Betrieb und den Upkeep eines mit Jenkins X erstellten Clusters verkomplizieren. Als Fazit stellen wir Jenkins X im Mai 2019 ein "befriedigend" aus und beobachten gespannt, wie sich das Tool in den kommmenden Monaten und Jahren weiterentwickeln wird. Event: Talk4Nerds, 29.04.2019 Speaker: Simon Kienzler, Johannes M. Scheuermann (beide inovex) Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Jenkins X – CI/CD in wolkigen Umgebungen

inovex GmbH

Neben dem großen Machine-Learning-Trend in der Cloud zeichnet sich zunehmend die Tendenz ab, bestimmte Aufgaben direkt auf Edge-Geräten auszuführen. Wir erkunden die Vorteile von Auswertungen direkt an der Quelle der Daten und die damit verbundenen Herausforderungen. Denn die Rechenleistung der Cloud steht uns hier leider nicht zur Verfügung. Zur Lösung stehen uns verschiedene Hardwareoptionen wie CPUs, GPUs, FPGAs oder spezielle ASICs und Frameworks zur Verfügung, die wir am Beispiel von einem Convolutional Neural Network evaluieren. Dabei gibt es praktische Tipps und Erfahrungen aus realen Projekten sowie anschauliche Demos auf verschiedenen Hardwareplattformen. Vorkenntnisse: Vorkenntnisse über tiefe neuronale Netze sind von Vorteil. Lernziele: - Verständnis über die Vorteile von AI auf Edge-Geräten und den damit verbundenen Herausforderungen. - Wissen über die verschiedenen Hard- und Softwarelösungen erlangen, um diese in eigenen Projekten einzusetzen. Event: building IoT, 03.04.2019 Speaker: Dominik Helleberg, inovex Mehr Tech-Vorträge: inovex.de/vortraege Mehr Blog-Artikel: inovex.de/blog

AI auf Edge-Geraeten

inovex GmbH

Der Talk auf der Konferenz „Talk4Nerds“ der R+V Versicherung bot eine Einführung in Prometheus als Monitoring-Lösung. Dabei ging inovexler Christoph auf die Anforderungen an ein modernes Monitoring Tool ein, wie Prometheus diesen Anforderungen entspricht und warum es zum defacto Standard im Kubernetes-Umfeld geworden ist. Abschließen beleuchtete Christoph die Non-Goals und wie man diese mit zusätzlichen Tools dennoch erreichen kann. Speaker: Christoph Petrausch (inovex) Event: Talk4Nerds Datum: 29.04.2019 Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Prometheus on Kubernetes

inovex GmbH

Recommender systems support the decision making processes of customers with personalized suggestions. These widely used systems influence the daily life of almost everyone across domains like ecommerce, social media, and entertainment. However, the efficient generation of relevant recommendations in large-scale systems is a very complex task. In order to provide personalization, engines and algorithms need to capture users’ varying tastes and find mostly nonlinear dependencies between them and a multitude of items. Enormous data sparsity and ambitious real-time requirements further complicate this challenge. At the same time, deep learning has been proven to solve complex tasks like object or speech recognition where traditional machine learning failed or showed mediocre performance. Join Marcel Kurovski to explore a use case for vehicle recommendations at mobile.de, Germany’s biggest online vehicle market. Marcel shares a novel regularization technique for the optimization criterion and evaluates it against various baselines. To achieve high scalability, he combines this method with strategies for efficient candidate generation based on user and item embeddings—providing a holistic solution for candidate generation and ranking. The proposed approach outperforms collaborative filtering and hybrid collaborative-content-based filtering by 73% and 143% for MAP@5. It also scales well for millions of items and users returning recommendations in tens of milliseconds. Event: O'Reilly Artificial Intelligence Conference, New York, 18.04.2019 Speaker: Marcel Kurovski, inovex GmbH Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Deep Learning for Recommender Systems

inovex GmbH

In seinem Meetup Talk berichtete Maximilian von den aktuellen Problemen von Cloud Computing – insbesondere im Internet of Things – und wie diese durch Edge Computing mitigiert werden können. Er erklärte, wie eine generische Edge-Computing-Architektur aussehen kann und zeigte Anwendungsfälle, von denen manche auch schon in existierenden Produkten umgesetzt sind. Im Anschluss stellte er Azure IoT Edge vor und erläuterte, wie es das bestehende IoT Framework von Microsoft erweitert sowie die Grundkonzepte, die IoT Edge bereitstellt. Auch die Probleme in dem noch jungen Produkt wurden angesprochen, aber auch die Vorteile und Features, die es liefert. In der gemeinsamen Demo mit Eli haben dann beide Speaker die technischen Details von Azure IoT Edge gezeigt und demonstriert, beispielsweise wie Code automatisiert von einer CI/CD-Pipeline in Azure DevOps auf ein IoT-Gerät deployed werden kann. Event: inovex Meetup, 12.03.& 19.03.2019 Speaker: Maximilian Bischoff, inovex Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Azure IoT Edge

inovex GmbH

Es liegt in der Natur des Menschen das Unvorhersehbare vorherzusagen: Wetter, Aktienkurse, Krankheitsverläufe, die Reaktion eines Menschen. Neueste Deep Learning Ansätze sind in der Lage solche sequentielle Sachverhalte immer genauer zu prognostizieren, setzen aber auch immer größere Datenmengen und Rechenleistungen voraus, die sowohl in Forschung als auch in der Praxis häufig nicht vorliegen. Wie kann man gute Ergebnisse erreichen, wenn nur wenig Daten vorliegen? Marisa Mohr stellte in ihrem Vortrag einen neuen und vielversprechenden informationstheoretischen Ansatz zum Feature Learning von sequentiellen Daten vor, der potenziell auch mit wenigen Daten auskommt. Dabei ging es speziell um ordinale Muster in Zeitreihen, wie sie beispielsweise als Veränderung von Emotionen im Gesprächsverlauf zu finden sind. Eine solche Entwicklung ist für Menschen in der Regel leicht zu erkennen. Chatbots hingegen können nicht intuitiv auf solche Emotionsverläufe reagieren, sondern müssen entsprechend programmiert werden. Details: Deep-Learning-Ansätze wie LSTMs, RNNs oder TCNs haben sich im Umgang mit sequentiellen Daten bewährt. Neuronale Netzwerke sind tief im technischen Sinn, weil sie mehrere (verborgene) Schichten besitzen, aber nicht weil sie ein tiefes Verständnis von Problemen entwickeln. In diesem Vortrag stellte Marisa einen symbolischen informationstheoretischen Ansatz des Representation Learnings von Zeitreihen vor und damit eine Möglichkeit, konzeptionelle Schichten zu konstruieren. Die Idee hinter der sogenannten Permutationsentropie besteht darin, anstelle der Werte einer Zeitreihe die Ordnungsrelation zwischen den Werten zu betrachten, und so auf das natürliche Auf und Ab des zugrundeliegenden dynamischen Systems zurückzugreifen. Event: inovex Meetup: Das Unvorhersehbare vorhersagen: Zeitreihen und Chatbots, 26.03.2019 Speakerin: Marisa Mohr (inovex) Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Representation Learning von Zeitreihen

inovex GmbH

Menschliche Kommunikation folgt zwar einer ganzen Reihe von Regeln, diese lassen sich aber schwer formalisieren. Nicht zuletzt deshalb, weil in unseren Interaktionen immer auch eine Fülle von Welt- und implizitem Kontextwissen eine Rolle spielt. Rein regelbasierte Chatbots sind daher nicht nur äußert komplex in der Programmierung, sondern stoßen in vielen Anwendungsbereichen schnell an ihre Grenzen. In diesem Vortrag gab Anna Weißhaar einen Überblick über die aktuellen Lösungen und Herausforderungen im Bereich digitale Assistenten. Der Fokus lag dabei auf Ansätzen, die Chatbots „chatty“ machen, sie also möglichst adäquat auf im Voraus unbekannte Nutzereingaben reagieren zu lassen. Event: inovex Meetup: Das Unvorhersehbare vorhersagen: Zeitreihen und Chatbots, 26.03.2019 Speaker: Anna Weißhaar (inovex) Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Talk to me – Chatbots und digitale Assistenten

inovex GmbH

Nicht zuletzt durch die medienwirksame Erfolge des maschinellen Lernens durch DeepMind, OpenAI und Kollegen ist Künstliche Intelligenz im Moment wieder in aller Munde. Einerseits locken zahlreiche neue, vorher undenkbare Anwendungen wie die automatische Diagnose von Krankheiten, autonome Fahrzeuge und Drohnen, oder die automatische Übersetzung gesprochener Wörter. Andererseits warnen mahnenden Stimmen wird vor dem zunehmendem Einflussnahme der „Algorithmen“ auf fast alle Bereiche unseres Lebens sowie vor unerwünschten Folgen von sich verselbstständigenden Computern gewarnt. Einige träumen von – oder fürchten sich vor – der vermeintlich unausweichlichen Singularität, an der sich nichts weniger als das Schicksal der gesamten Menschheit entscheiden wird. Doch was verbirgt sich hinter dem Begriff Künstliche Intelligenz? Je nachdem, wen man fragt, erhält man unterschiedliche, bisweilen gegensätzliche Antworten. Dieser Vortrag stellt einige dieser Antworten vor und versucht sie (nicht nur) anhand von Beispielen aus Forschung und Anwendung einzuordnen. Event: Business Analytics Day, 07.03.2019 Speaker: Dr. Matthias Richter, Dr. Stefan Igel (inovex) Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Künstlich intelligent?

inovex GmbH

In den letzten drei Jahren haben wir die Infrastruktur der Fernseh-Plattform waipu.tv gebaut. Dabei haben wir angefangen Tools für den Betrieb in Golang zu schreiben. Aus einigen der Tools wurden Core-Services, die auch die Last einer Fußball-WM-Übertragung locker wegstecken. Wir wollen euch zeigen, wie wir mit der selben Tool-Chain (Golang & Co) Betriebs-Probleme lösen und kritische Business-Applikationen entwickeln. Klassisch DevOps oder Golden Hammer? Speaker: Christoph Petrausch, Igor Lankin (beide inovex) Event: DevOpsConference, 04.12.2018 Mehr Tech-Vorträge: inovex.de/vortraege Mehr Tech-Artikel: inovex.de/blog

Dev + Ops = Go

inovex GmbH

Das Android Open Source Project, kurz AOSP, ist das Betriebssystem, das auf den meisten heutigen und wahrscheinlich auch auf deinem Smartphone läuft. Es ist die Basis für das Android-App-Universum und wird von Millionen Nutzern und Entwicklern auf der Welt verwendet. Wegen der offenen Verfügbarkeit des Source Codes ist es auch die Basis für bekannte Custom ROMs wie LineageOS. Der erste Teil des Talks gab eine Übersicht über die Architektur des Betriebssystems, das App-Ökosystem, den Hardware Abstraction Layer (HAL), die Sicherheitskonzepte und einige neue Betriebssystementwicklungen wie Project Treble in Android 8.0. Der zweite Teil des Talks gab einen Einblick in den Quellcode und die Struktur des AOSP: Wie lädt man sich den Source Code herunter, wie baut man das AOSP für unterstützte Geräte und wie kann man die eigenen ROMs auf ein Smartphone flashen? Zum Spaß wurde auch noch in einige Implementierungsdetails von Android-App-API-Funktionen geblickt, die man als App Developer schon aufgerufen hat. Speaker: Stefan Lengfeld, inovex Event: inovex Meetup Köln, 23.10.2018 Mehr Tech-Vorträge: www.inovex.de/vortraege Mehr Tech-Artikel: www.inovex.de/blog

Das Android Open Source Project

inovex GmbH

Interpretable Machine Learning describes the process of revealing causes of predictions and explaining a derived decision in a way that is understandable to humans. The ability to understand the causes that lead to a certain prediction enables data scientists to ensure that the model is consistent to the domain knowledge of an expert. Furthermore, interpretability is critical to obtain trust in a model and to be able to tackle problems like unfair biases or discrimination against particular subgroups. This talk covers an introduction to the concept of interpretability and an overview of popular interpretability techniques. Speaker: Marcel Spitzer, inovex Event: Kaggle Munich Meetup, 20.11.2018 Mehr Tech-Vorträge: www.inovex.de/vortraege Mehr Tech-Artikel: www.inovex.de/blog

Machine Learning Interpretability

inovex GmbH

Online vehicle marketplaces are embracing artificial intelligence to ease the process of selling a vehicle on their platform. The tedious work of copying information from the vehicle registration document into some web form can be automated with the help of smart text-spotting systems, in which the seller takes a picture of the document, and the necessary information is extracted automatically. Florian Wilhelm details the components of a text-spotting system, including the subtasks of object detection and optical character recognition (OCR). Florian elaborates on the challenges of OCR in documents with various distortions and artifacts, which rule out off-the-shelf products for this task. After offering an overview of semisupervised learning based on generative adversarial networks (GANs), Florian evaluates the performance gains of this method compared to supervised learning. More specifically, for a varying amount of labeled data, he compares the accuracy of a convolution neural network (CNN) to a GANthat uses additional unlabeled data during the training phase, showing that GANs significantly outperform classical CNNs in use cases with a lack of labeled data. What you'll learn: Understand how semisupervised learning with GANs works Explore beneficial semisupervised methods based on GANs for use cases with a limited amount of labeled data Gain insight into an interesting OCR use case of an online vehicle marketplace Event: O'Reilly Artificial Intelligence Conference, London, 11.10.2018 Speaker: Dr. Florian Wilhelm Mehr Tech-Vorträge: www.inovex.de/vortraege Mehr Tech-Artikel: www.inovex.de/blog

Performance evaluation of GANs in a semisupervised OCR use case

inovex GmbH

IT im 21. Jahrhundert – What a time to be alive! Es gibt einen (unüberschaubaren) Zoo an Methoden und Produkten die uns so viel Freude an der Arbeit bereiten! Sie sind modern, weil sie neu sind. Sie fordern unser Können heraus, weil sie komplex sind. Sie lösen einige Probleme, die wir vorher nicht hatten. Jeder will sie verwenden, weil Google, Netflix & Co. sie propagieren und Hand auf’s Herz: Will nicht jeder gerne so arbeiten wie Google, Netflix & Co.? Aber macht das wirklich Sinn? In diesem Vortrag blicken wir auf diverse Erkenntnisse aus dem Einsatz agiler Produktentwicklung, DevOps, Continuous Integration/Delivery, Infrastructure as Code, Immutable Infrastructure (bspw. Docker/Kubernetes), Application Logging und Service Monitoring. Learning Goals: - Wir müssen den Einsatz von Methoden und Tools an die Menschen ausrichten, die sie (weiter-)entwickeln und benutzen sollen. - Manchmal lösen wir mit neuen Tools Probleme, die wir vorher nicht hatten. - Die Suche nach einfachen Lösungen für komplexe Probleme ist essentiell, aber nicht immer einfach. Event: Continuous Lifecycle, 15.11.2018 Speaker: Arnold Bechtoldt Mehr Tech-Vorträge: www.inovex.de/vortraege Mehr Tech-Artikel: www.inovex.de/blog

People & Products – Lessons learned from the daily IT madness

inovex GmbH

Pulumi (pulumi.io) offers an open source platform to create/manage and deploy your infrastructure in realy programming languages like JavaScript/TypeScript, Go and Python. As Cloud platforms the major 3 cloud providers are supported and additionally you can also use Pulumi with OpenStack and Kubernetes to deploy your applications in the cloud. In this talk we will take a look how Pulumi is different to traditional solutions like Terraform or the Cloud Provider specific solutions (e.g. CloudFormation). The main focus will be on deploying your services on top of Kubernetes. The talk will contain a little theory part about Pulumi, the rest of the talk is more focused on demos and practical parts. One focus of the talk is the difference of Pulumi to kubectl and helm (or to be precise how they complement each other. As a takeaway of this talk you should understand the basics of Pulumi and know what are the differences to the traditional deployment tools. Event: CNCF Meetup Hamburg & Stuttgart, 29.10.2018 & 07.11.2018 Speaker: Johannes M. Scheuermann, inovex Mehr Tech-Vorträge: https://www.inovex.de/de/content-pool/vortraege/ Mehr Tech-Artikel: https://www.inovex.de/blog/

Infrastructure as (real) Code – Manage your K8s resources with Pulumi

inovex GmbH

Plus de inovex GmbH (20)

lldb – Debugger auf Abwegen

Are you sure about that?! Uncertainty Quantification in AI

Why natural language is next step in the AI evolution

WWDC 2019 Recap

Network Policies

Interpretable Machine Learning

Jenkins X – CI/CD in wolkigen Umgebungen

AI auf Edge-Geraeten

Prometheus on Kubernetes

Deep Learning for Recommender Systems

Azure IoT Edge

Representation Learning von Zeitreihen

Talk to me – Chatbots und digitale Assistenten

Künstlich intelligent?

Dev + Ops = Go

Das Android Open Source Project

Machine Learning Interpretability

Performance evaluation of GANs in a semisupervised OCR use case

People & Products – Lessons learned from the daily IT madness

Infrastructure as (real) Code – Manage your K8s resources with Pulumi

Elasticsearch und Big Data - Webinar vom 23.07.2014

1. “Elasticsearch und Big Data” Bernhard Pflugfelder inovex GmbH 23.07.2014

2. 2 ‣ Big Data Engineer @ inovex ‣ Erfahren in den Bereichen: ‣ search ‣ analytics ‣ big data ‣ bi ‣ Arbeite u.a. mit: ‣ Lucene ‣ Solr ‣ Elasticsearch ‣ Hadoop Ecosystem ‣ bpflugfelder@inovex.de Bernhard Pflugfelder

3. ‣ Demo “media analytics” @ ProsiebenSat.1 ‣ “Elasticsearch in a nutshell” ‣ Import von Daten in Elasticsearch ‣ Datananalyse mit Elasticsearch Agenda

4. 4 “media analytics” @ ProsiebenSat.1

5. 5 Analyse von Big Data mit Elasticsearch

6. 6 Elasticsearch in a nutshell Lucene “unter der Haube” skalierbar dokumenten orientiert Plugin Architektur Multi tenancy REST & JSON

7. 7 Überblick Architektur Hochverfügbarkeit + Fehlertoleranz Primary Shard Replica Shard 1 2 3 Master node 321 Node 21 3 Node JSON Input JSON Output

8. 8 real-time get Datentypen Mapping (Schema) Queries insert, update, delete snapshot & backup Elasticsearch – eine dokumentenorientierte Datenbank

9. 9 Import von Daten in Elasticsearch…

10. 10 Import von Daten in Elasticsearch flume index api http bindings logstash spring-data- elasticsearch hadoop- elasticsearch

11. 11logstash logstash log collection and management tool collects, parses and stores log events became part of the ELK stack seamless integration with elasticsearch plugin architecture expect that logstash will be promoted to a more general ingestion pipeline Plugin Architektur Verarbeitung v. Logdaten Integration mit ES inputs, codecs, filters, outputs

12. 12 getting data into elasticsearch elasticsearch & hadoop from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/ MapReduce Hive Pig Spark

13. 13 Datananalyse mit Elasticsearch …

14. 14 Datananalyse mit Elasticsearch Sie kennen Facetten?

15. 15 Datananalyse mit Elasticsearch Visualisierung von Facetten für explorative Analyse

16. 16 Datananalyse mit Elasticsearch Das Aggregations Framework (aggs) ‣ explorative Analyse ‣ slicing & dicing ‣ drilldown ‣ interaktiv ‣ schnelle Berechnung durch in- memory Datenstruktur field data ‣ über search api ausführbar ‣ json in / json out

17. Bucket aggs Für das Aufteilen der originalen Menge an Dokumenten in separate Teilmengen von Dokumenten (buckets). Metric aggs Für die Berechnung von spezifischen Metriken über eine Menge von Dokumenten. Die Berechnung basiert auf einer Aggregation über alle Dokumente pro “bucket”. 17 Das Aggregations Framework (aggs) 2 Aggregationstypen

18. ‣ terms ‣ range ‣ date range ‣ histogram ‣ date histogram ‣ geo distance ‣ geohash grid ‣ ... ‣ min ‣ max ‣ sum ‣ avg ‣ value count ‣ percentiles ‣ cardinality ‣ ... 18 Das Aggregations Framework (aggs) Viele Aggregators adhoc verfügbar

19. my_aggregation: 19 Das Aggregations Framework (aggs) spezifische Analysen durch “nested aggregators” realisierbar "aggregations": { "<aggregation_name>": { "<aggregation_type>": { <aggregation_body> }, ["aggregations": { [<sub_aggregation>]* }] } [,"<aggregation_name_2>": { … }]* } bucket 1 bucket 2 bucket n metrics…

20. 20 ‣ Elasticsearch für Datenanalyse: ‣ Aggregations Framework ‣ Analyse auch von Streamdaten ‣ ELK stack (ingestion + analysis + visualization) ‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten ‣ Elasticsearch für Big Data ‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse ‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR) ‣ Import von großen Datenmengen über logstash oder flume Zusammenfassung

21. 21 Vielen Dank für Ihre Aufmerksamkeit! Kontakt inovex GmbH Bernhard Pflugfelder Big Data Engineer Cell: +49 173 3181-088 Mail: bernhard.pflugfelder@inovex.de inovex GmbH Ludwig-Erhard-Allee 6 76131 Karlsruhe Tel.: +49 721 619 021-0 info@inovex.de www.inovex.de

Elasticsearch und Big Data - Webinar vom 23.07.2014

Recommandé

Recommandé

Contenu connexe

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014 (20)

Plus de inovex GmbH

Plus de inovex GmbH (20)

Elasticsearch und Big Data - Webinar vom 23.07.2014