SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
“Elasticsearch und Big Data”
Bernhard Pflugfelder
inovex GmbH
23.07.2014
2
‣ Big Data Engineer @ inovex
‣ Erfahren in den Bereichen:
‣ search
‣ analytics
‣ big data
‣ bi
‣ Arbeite u.a. mit:
‣ Lucene
‣ Solr
‣ Elasticsearch
‣ Hadoop Ecosystem
‣ bpflugfelder@inovex.de
Bernhard Pflugfelder
‣ Demo “media analytics” @ ProsiebenSat.1
‣ “Elasticsearch in a nutshell”
‣ Import von Daten in Elasticsearch
‣ Datananalyse mit Elasticsearch
Agenda
4
“media analytics” @ ProsiebenSat.1
5
Analyse von Big Data
mit Elasticsearch
6
Elasticsearch in a nutshell
Lucene
“unter der
Haube”
skalierbar
dokumenten
orientiert
Plugin
Architektur
Multi tenancy
REST &
JSON
7
Überblick Architektur
Hochverfügbarkeit + Fehlertoleranz
Primary Shard Replica Shard
1 2 3
Master node
321
Node
21 3
Node
JSON
Input
JSON
Output
8
real-time get
Datentypen
Mapping
(Schema)
Queries
insert,
update,
delete
snapshot &
backup
Elasticsearch – eine dokumentenorientierte Datenbank
9
Import von Daten in Elasticsearch…
10
Import von Daten in Elasticsearch
flume
index api http bindings
logstash
spring-data-
elasticsearch
hadoop-
elasticsearch
11logstash
logstash
log collection and management tool
collects, parses and stores log events
became part of the ELK stack
seamless integration with elasticsearch
plugin architecture
expect that logstash will be promoted to a more general ingestion pipeline
Plugin
Architektur
Verarbeitung
v. Logdaten
Integration
mit ES
inputs,
codecs,
filters,
outputs
12
getting data into elasticsearch
elasticsearch & hadoop
from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/
MapReduce Hive Pig Spark
13
Datananalyse mit Elasticsearch …
14
Datananalyse mit Elasticsearch
Sie kennen Facetten?
15
Datananalyse mit Elasticsearch
Visualisierung von Facetten für explorative Analyse
16
Datananalyse mit Elasticsearch
Das Aggregations Framework (aggs)
‣ explorative Analyse
‣ slicing & dicing
‣ drilldown
‣ interaktiv
‣ schnelle Berechnung durch in-
memory Datenstruktur field data
‣ über search api ausführbar
‣ json in / json out
Bucket aggs
Für das Aufteilen der originalen Menge
an Dokumenten in separate
Teilmengen von Dokumenten
(buckets).
Metric aggs
Für die Berechnung von spezifischen
Metriken über eine Menge von
Dokumenten.
Die Berechnung basiert auf einer
Aggregation über alle Dokumente pro
“bucket”.
17
Das Aggregations Framework (aggs)
2 Aggregationstypen
‣ terms
‣ range
‣ date range
‣ histogram
‣ date histogram
‣ geo distance
‣ geohash grid
‣ ...
‣ min
‣ max
‣ sum
‣ avg
‣ value count
‣ percentiles
‣ cardinality
‣ ...
18
Das Aggregations Framework (aggs)
Viele Aggregators adhoc verfügbar
my_aggregation:
19
Das Aggregations Framework (aggs)
spezifische Analysen durch “nested aggregators” realisierbar
"aggregations": {
"<aggregation_name>": {
"<aggregation_type>": {
<aggregation_body>
},
["aggregations": { [<sub_aggregation>]* }]
}
[,"<aggregation_name_2>": { … }]*
}
bucket 1 bucket 2 bucket n metrics…
20
‣ Elasticsearch für Datenanalyse:
‣ Aggregations Framework
‣ Analyse auch von Streamdaten
‣ ELK stack (ingestion + analysis + visualization)
‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten
‣ Elasticsearch für Big Data
‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse
‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR)
‣ Import von großen Datenmengen über logstash oder flume
Zusammenfassung
21
Vielen Dank für Ihre Aufmerksamkeit!
Kontakt
inovex GmbH
Bernhard Pflugfelder
Big Data Engineer
Cell: +49 173 3181-088
Mail: bernhard.pflugfelder@inovex.de
inovex GmbH
Ludwig-Erhard-Allee 6
76131 Karlsruhe
Tel.: +49 721 619 021-0
info@inovex.de
www.inovex.de

Contenu connexe

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014

Similaire à Elasticsearch und Big Data - Webinar vom 23.07.2014 (20)

Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
 
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data ProjekteAgile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
User targeting via Tag Manager variables - Analytics Segments on Fire
User targeting via Tag Manager variables - Analytics Segments on FireUser targeting via Tag Manager variables - Analytics Segments on Fire
User targeting via Tag Manager variables - Analytics Segments on Fire
 
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High RewardHacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
 
OSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger Koch
OSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger KochOSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger Koch
OSMC 2023 | Bring IoT auf ein neues Level mit ThingsBoard by Holger Koch
 
Java Forum - Unlock Your Logs
Java Forum - Unlock Your LogsJava Forum - Unlock Your Logs
Java Forum - Unlock Your Logs
 
MongoDB für Java-Programmierer
MongoDB für Java-ProgrammiererMongoDB für Java-Programmierer
MongoDB für Java-Programmierer
 
Back to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDB
Back to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDBBack to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDB
Back to Basics German 2: Erstellen Sie Ihre erste Anwendung in MongoDB
 
MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)
 
Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?
 
Cloud Native & Java EE: Freund oder Feind?
Cloud Native & Java EE: Freund oder Feind?Cloud Native & Java EE: Freund oder Feind?
Cloud Native & Java EE: Freund oder Feind?
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
MongoDB Einführung
MongoDB EinführungMongoDB Einführung
MongoDB Einführung
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
Back to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und Geoindizes
Back to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und GeoindizesBack to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und Geoindizes
Back to Basics – Webinar 4: Fortschrittliche Indizierung, Text- und Geoindizes
 
Einführung in Elasticsearch
Einführung in ElasticsearchEinführung in Elasticsearch
Einführung in Elasticsearch
 
Einführung in NoSQL-Datenbanken
Einführung in NoSQL-DatenbankenEinführung in NoSQL-Datenbanken
Einführung in NoSQL-Datenbanken
 
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloudGünzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
 

Plus de inovex GmbH

Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learning
inovex GmbH
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
inovex GmbH
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreihen
inovex GmbH
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
inovex GmbH
 

Plus de inovex GmbH (20)

lldb – Debugger auf Abwegen
lldb – Debugger auf Abwegenlldb – Debugger auf Abwegen
lldb – Debugger auf Abwegen
 
Are you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIAre you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AI
 
Why natural language is next step in the AI evolution
Why natural language is next step in the AI evolutionWhy natural language is next step in the AI evolution
Why natural language is next step in the AI evolution
 
WWDC 2019 Recap
WWDC 2019 RecapWWDC 2019 Recap
WWDC 2019 Recap
 
Network Policies
Network PoliciesNetwork Policies
Network Policies
 
Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learning
 
Jenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen UmgebungenJenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen Umgebungen
 
AI auf Edge-Geraeten
AI auf Edge-GeraetenAI auf Edge-Geraeten
AI auf Edge-Geraeten
 
Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreihen
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
 

Elasticsearch und Big Data - Webinar vom 23.07.2014

  • 1. “Elasticsearch und Big Data” Bernhard Pflugfelder inovex GmbH 23.07.2014
  • 2. 2 ‣ Big Data Engineer @ inovex ‣ Erfahren in den Bereichen: ‣ search ‣ analytics ‣ big data ‣ bi ‣ Arbeite u.a. mit: ‣ Lucene ‣ Solr ‣ Elasticsearch ‣ Hadoop Ecosystem ‣ bpflugfelder@inovex.de Bernhard Pflugfelder
  • 3. ‣ Demo “media analytics” @ ProsiebenSat.1 ‣ “Elasticsearch in a nutshell” ‣ Import von Daten in Elasticsearch ‣ Datananalyse mit Elasticsearch Agenda
  • 4. 4 “media analytics” @ ProsiebenSat.1
  • 5. 5 Analyse von Big Data mit Elasticsearch
  • 6. 6 Elasticsearch in a nutshell Lucene “unter der Haube” skalierbar dokumenten orientiert Plugin Architektur Multi tenancy REST & JSON
  • 7. 7 Überblick Architektur Hochverfügbarkeit + Fehlertoleranz Primary Shard Replica Shard 1 2 3 Master node 321 Node 21 3 Node JSON Input JSON Output
  • 9. 9 Import von Daten in Elasticsearch…
  • 10. 10 Import von Daten in Elasticsearch flume index api http bindings logstash spring-data- elasticsearch hadoop- elasticsearch
  • 11. 11logstash logstash log collection and management tool collects, parses and stores log events became part of the ELK stack seamless integration with elasticsearch plugin architecture expect that logstash will be promoted to a more general ingestion pipeline Plugin Architektur Verarbeitung v. Logdaten Integration mit ES inputs, codecs, filters, outputs
  • 12. 12 getting data into elasticsearch elasticsearch & hadoop from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/ MapReduce Hive Pig Spark
  • 15. 15 Datananalyse mit Elasticsearch Visualisierung von Facetten für explorative Analyse
  • 16. 16 Datananalyse mit Elasticsearch Das Aggregations Framework (aggs) ‣ explorative Analyse ‣ slicing & dicing ‣ drilldown ‣ interaktiv ‣ schnelle Berechnung durch in- memory Datenstruktur field data ‣ über search api ausführbar ‣ json in / json out
  • 17. Bucket aggs Für das Aufteilen der originalen Menge an Dokumenten in separate Teilmengen von Dokumenten (buckets). Metric aggs Für die Berechnung von spezifischen Metriken über eine Menge von Dokumenten. Die Berechnung basiert auf einer Aggregation über alle Dokumente pro “bucket”. 17 Das Aggregations Framework (aggs) 2 Aggregationstypen
  • 18. ‣ terms ‣ range ‣ date range ‣ histogram ‣ date histogram ‣ geo distance ‣ geohash grid ‣ ... ‣ min ‣ max ‣ sum ‣ avg ‣ value count ‣ percentiles ‣ cardinality ‣ ... 18 Das Aggregations Framework (aggs) Viele Aggregators adhoc verfügbar
  • 19. my_aggregation: 19 Das Aggregations Framework (aggs) spezifische Analysen durch “nested aggregators” realisierbar "aggregations": { "<aggregation_name>": { "<aggregation_type>": { <aggregation_body> }, ["aggregations": { [<sub_aggregation>]* }] } [,"<aggregation_name_2>": { … }]* } bucket 1 bucket 2 bucket n metrics…
  • 20. 20 ‣ Elasticsearch für Datenanalyse: ‣ Aggregations Framework ‣ Analyse auch von Streamdaten ‣ ELK stack (ingestion + analysis + visualization) ‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten ‣ Elasticsearch für Big Data ‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse ‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR) ‣ Import von großen Datenmengen über logstash oder flume Zusammenfassung
  • 21. 21 Vielen Dank für Ihre Aufmerksamkeit! Kontakt inovex GmbH Bernhard Pflugfelder Big Data Engineer Cell: +49 173 3181-088 Mail: bernhard.pflugfelder@inovex.de inovex GmbH Ludwig-Erhard-Allee 6 76131 Karlsruhe Tel.: +49 721 619 021-0 info@inovex.de www.inovex.de