SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
Elasticsearch &
Wiener LinienAnalyse und Design einer Architektur basierend auf Elasticsearch und
Kibana zur Aufbereitung und Visualisierung von Fast-Echtzeit Daten
Raphael Fakhir, MSc
Masterarbeit Ziele
– Ein „Big Data“ Thema:
“The simplest definition of Big Data is it doesn’t fit in Excel”
- Stephane Hamel
The Big Data challenge  The 3 Vs: Volume, Velocity & Variety
– Design einer gesamten Architektur zur Auswertung und Visualisierung von Daten.
– Eine praktische Umsetzung (Nicht nur Theorie).
2
Die Open Data Suche
– Open Data der Stadt Wien (data.gv.at).
– Unter Kategorie Traffic findet man Information zu den öffentlichen Daten der
Wiener Linien und ein Formular zur Beantragung eines API Keys.
– Der API Key gibt Zugriff zu den Echtzeit Daten der Wiener Linien.
– Diese können mittels HTTP GET Request abgefragt werden:
3
ELK-Stack: Elasticsearch, Logstash & Kibana
Der ELK-Stack oder Elastic Stack besteht aus drei Hauptkomponenten:
 Elasticsearch: ist eine Suchmaschine auf Basis von Lucene, welches die Suchergebnisse in einem
NoSQL-Format (JSON) speichert und sie über ein RESTful-Webinterface aus gibt. Er ermöglicht auf
einfache Weise den Betrieb im Rechnerverbund zur Umsetzung von Hochverfügbarkeit und
Lastverteilung.
 Logstash: ist ein Tool zum Sammeln, Verarbeiten und Weiterleiten von Events und Logs an externe
Programme, wie Elasticsearch.
 Kibana: ist ein Browser basiertes Analytics and Search Interface für Elasticsearch, welches
hauptsächlich zur Visualisierung der Eventdaten aus Logstash verwendet wird.
4
Praktische Umsetzung
5
– Daten minütlich für ca. 2 Monate Daten sammeln
und speichern
– JSON Daten vereinfachen und linearisieren
– Elasticsearch aufsetzten und Mapping
konfigurieren
– Daten in Elasticsearch importieren
– Daten mittels Kibana auswerten und visualisieren
6
Ergebnisse
7
0
5000000
10000000
15000000
20000000
25000000
30000000
35000000
40000000
45000000
-180 -160 -140 -120 -100 -80 -60 -40 -20 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460
Count / Delay (s)
Ergebnisse
8
0
100 000
200 000
300 000
400 000
500 000
600 000
700 000
800 000
900 000
1 000 000
-180 -160 -140 -120 -100 -80 -60 -40 -20 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460
Actual Count / Delay (s) Expected Normal Count / Delay (s)
Ergebnisse
9
0
20
40
60
80
100
120
140
160
180
Avg. Delay without 0 and 30 (in Seconds)
Austrian Holiday Period
Weekend
Ergebnisse
10
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Avg. Delay by Hour of the Day without 0 and 30 (in Seconds)
0
10
20
30
40
50
60
70
80
90
100
Monday Tuesday Wednesday Thursday Friday Saturday Sunday
Avg. Delay by Day of the Week without 0 and 30 (in Seconds)
Ergebnisse
11
0
20
40
60
80
100
120
ptTramWLB ptTramVRT ptTram ptBusCity ptBusNight ptMetro
Avg. Delay by categorized by Transportation Type without 0 and 30 (in Seconds)
barrierFree true false
Tram delay in seconds 57.83 109.21
12
Fazit
13
Wichtige Erkenntnisse
• Die Analyse, Planung und Implementierung der Applikation konnten sehr gut die Herausforderungen der „3Vs“
wiederspiegeln:
Volume: Speicherplatz in jedem Prozessschritt
Velocity: Effizienter Code sammeln von fast Echtzeitdaten
Variety: Dynamischer Code für unterschiedliche Daten Typen
• Eine durchschnittliche Verspätung von ca. einer Minute deutet auf eine ziemlich gute Zuverlässigkeit, wenn man
bedenkt, dass ein Großteil der Wiener Linien die Gleise mit Autos im Straßenverkehr teilt.
• Ohne Vorkenntnisse zu den Daten und wenig Know-How zu den Tools  Aussagekräftige Auswertung
Vorteile für die Wiener Linien.
• Anpassung der Linien Fahrpläne mittels Machine Learning, in Abhängigkeit der Saison
• Erkennung von Verkehrsbottelnecks  Präventive Maßnahmen  Effiziente Zuteilung der Ressourcen
Thanks for listening
Raphael Fakhir, MSc

Contenu connexe

Plus de Stadt Wien

2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdfStadt Wien
 
Geoland.at Neuigkeiten Update
Geoland.at Neuigkeiten UpdateGeoland.at Neuigkeiten Update
Geoland.at Neuigkeiten UpdateStadt Wien
 
Kappazunder Testdatensatz 2020 OGD Wien
Kappazunder Testdatensatz 2020 OGD WienKappazunder Testdatensatz 2020 OGD Wien
Kappazunder Testdatensatz 2020 OGD WienStadt Wien
 
44. Open Data MeetUp Wien
44. Open Data MeetUp Wien44. Open Data MeetUp Wien
44. Open Data MeetUp WienStadt Wien
 
43. Open Data MeetUp Wien
43. Open Data MeetUp Wien43. Open Data MeetUp Wien
43. Open Data MeetUp WienStadt Wien
 
Warum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenWarum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenStadt Wien
 
42. Open Data MeetUp Wien
42. Open Data MeetUp Wien42. Open Data MeetUp Wien
42. Open Data MeetUp WienStadt Wien
 
geoland.at - Update
geoland.at - Updategeoland.at - Update
geoland.at - UpdateStadt Wien
 
Offene Verkehrsdaten - Neuigkeiten und Änderungen
Offene Verkehrsdaten - Neuigkeiten und Änderungen Offene Verkehrsdaten - Neuigkeiten und Änderungen
Offene Verkehrsdaten - Neuigkeiten und Änderungen Stadt Wien
 
Bezirke im Fokus
Bezirke im FokusBezirke im Fokus
Bezirke im FokusStadt Wien
 
41. Open Data MeetUp & Talk Stadt Wien
41. Open Data MeetUp & Talk Stadt Wien41. Open Data MeetUp & Talk Stadt Wien
41. Open Data MeetUp & Talk Stadt WienStadt Wien
 
Warum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenWarum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenStadt Wien
 
Urban Data Platform Vienna
Urban Data Platform ViennaUrban Data Platform Vienna
Urban Data Platform ViennaStadt Wien
 
Terrain RGB Tiles
Terrain RGB TilesTerrain RGB Tiles
Terrain RGB TilesStadt Wien
 
39. Open Data MeetUp & Talk Stadt Wien
39. Open Data MeetUp & Talk Stadt Wien39. Open Data MeetUp & Talk Stadt Wien
39. Open Data MeetUp & Talk Stadt WienStadt Wien
 
Wiener Mortalitätsmonitoring
Wiener MortalitätsmonitoringWiener Mortalitätsmonitoring
Wiener MortalitätsmonitoringStadt Wien
 
Urban Data - Open Data - Data Excellence in der Stadt Wien
Urban Data - Open Data - Data Excellence in der Stadt WienUrban Data - Open Data - Data Excellence in der Stadt Wien
Urban Data - Open Data - Data Excellence in der Stadt WienStadt Wien
 
OGD-Behördenexport der Graphenintegrationsplattform GIP
OGD-Behördenexport der Graphenintegrationsplattform GIPOGD-Behördenexport der Graphenintegrationsplattform GIP
OGD-Behördenexport der Graphenintegrationsplattform GIPStadt Wien
 
Citymapper neu in Wien
Citymapper neu in WienCitymapper neu in Wien
Citymapper neu in WienStadt Wien
 
37.Open Government Plattform Wien
37.Open Government Plattform Wien37.Open Government Plattform Wien
37.Open Government Plattform WienStadt Wien
 

Plus de Stadt Wien (20)

2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf
 
Geoland.at Neuigkeiten Update
Geoland.at Neuigkeiten UpdateGeoland.at Neuigkeiten Update
Geoland.at Neuigkeiten Update
 
Kappazunder Testdatensatz 2020 OGD Wien
Kappazunder Testdatensatz 2020 OGD WienKappazunder Testdatensatz 2020 OGD Wien
Kappazunder Testdatensatz 2020 OGD Wien
 
44. Open Data MeetUp Wien
44. Open Data MeetUp Wien44. Open Data MeetUp Wien
44. Open Data MeetUp Wien
 
43. Open Data MeetUp Wien
43. Open Data MeetUp Wien43. Open Data MeetUp Wien
43. Open Data MeetUp Wien
 
Warum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenWarum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden sollten
 
42. Open Data MeetUp Wien
42. Open Data MeetUp Wien42. Open Data MeetUp Wien
42. Open Data MeetUp Wien
 
geoland.at - Update
geoland.at - Updategeoland.at - Update
geoland.at - Update
 
Offene Verkehrsdaten - Neuigkeiten und Änderungen
Offene Verkehrsdaten - Neuigkeiten und Änderungen Offene Verkehrsdaten - Neuigkeiten und Änderungen
Offene Verkehrsdaten - Neuigkeiten und Änderungen
 
Bezirke im Fokus
Bezirke im FokusBezirke im Fokus
Bezirke im Fokus
 
41. Open Data MeetUp & Talk Stadt Wien
41. Open Data MeetUp & Talk Stadt Wien41. Open Data MeetUp & Talk Stadt Wien
41. Open Data MeetUp & Talk Stadt Wien
 
Warum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden solltenWarum Städte und Kommunen "Data Excellent" werden sollten
Warum Städte und Kommunen "Data Excellent" werden sollten
 
Urban Data Platform Vienna
Urban Data Platform ViennaUrban Data Platform Vienna
Urban Data Platform Vienna
 
Terrain RGB Tiles
Terrain RGB TilesTerrain RGB Tiles
Terrain RGB Tiles
 
39. Open Data MeetUp & Talk Stadt Wien
39. Open Data MeetUp & Talk Stadt Wien39. Open Data MeetUp & Talk Stadt Wien
39. Open Data MeetUp & Talk Stadt Wien
 
Wiener Mortalitätsmonitoring
Wiener MortalitätsmonitoringWiener Mortalitätsmonitoring
Wiener Mortalitätsmonitoring
 
Urban Data - Open Data - Data Excellence in der Stadt Wien
Urban Data - Open Data - Data Excellence in der Stadt WienUrban Data - Open Data - Data Excellence in der Stadt Wien
Urban Data - Open Data - Data Excellence in der Stadt Wien
 
OGD-Behördenexport der Graphenintegrationsplattform GIP
OGD-Behördenexport der Graphenintegrationsplattform GIPOGD-Behördenexport der Graphenintegrationsplattform GIP
OGD-Behördenexport der Graphenintegrationsplattform GIP
 
Citymapper neu in Wien
Citymapper neu in WienCitymapper neu in Wien
Citymapper neu in Wien
 
37.Open Government Plattform Wien
37.Open Government Plattform Wien37.Open Government Plattform Wien
37.Open Government Plattform Wien
 

Elasticsearch & Wiener Linien

  • 1. Elasticsearch & Wiener LinienAnalyse und Design einer Architektur basierend auf Elasticsearch und Kibana zur Aufbereitung und Visualisierung von Fast-Echtzeit Daten Raphael Fakhir, MSc
  • 2. Masterarbeit Ziele – Ein „Big Data“ Thema: “The simplest definition of Big Data is it doesn’t fit in Excel” - Stephane Hamel The Big Data challenge  The 3 Vs: Volume, Velocity & Variety – Design einer gesamten Architektur zur Auswertung und Visualisierung von Daten. – Eine praktische Umsetzung (Nicht nur Theorie). 2
  • 3. Die Open Data Suche – Open Data der Stadt Wien (data.gv.at). – Unter Kategorie Traffic findet man Information zu den öffentlichen Daten der Wiener Linien und ein Formular zur Beantragung eines API Keys. – Der API Key gibt Zugriff zu den Echtzeit Daten der Wiener Linien. – Diese können mittels HTTP GET Request abgefragt werden: 3
  • 4. ELK-Stack: Elasticsearch, Logstash & Kibana Der ELK-Stack oder Elastic Stack besteht aus drei Hauptkomponenten:  Elasticsearch: ist eine Suchmaschine auf Basis von Lucene, welches die Suchergebnisse in einem NoSQL-Format (JSON) speichert und sie über ein RESTful-Webinterface aus gibt. Er ermöglicht auf einfache Weise den Betrieb im Rechnerverbund zur Umsetzung von Hochverfügbarkeit und Lastverteilung.  Logstash: ist ein Tool zum Sammeln, Verarbeiten und Weiterleiten von Events und Logs an externe Programme, wie Elasticsearch.  Kibana: ist ein Browser basiertes Analytics and Search Interface für Elasticsearch, welches hauptsächlich zur Visualisierung der Eventdaten aus Logstash verwendet wird. 4
  • 5. Praktische Umsetzung 5 – Daten minütlich für ca. 2 Monate Daten sammeln und speichern – JSON Daten vereinfachen und linearisieren – Elasticsearch aufsetzten und Mapping konfigurieren – Daten in Elasticsearch importieren – Daten mittels Kibana auswerten und visualisieren
  • 6. 6
  • 7. Ergebnisse 7 0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 45000000 -180 -160 -140 -120 -100 -80 -60 -40 -20 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 Count / Delay (s)
  • 8. Ergebnisse 8 0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 800 000 900 000 1 000 000 -180 -160 -140 -120 -100 -80 -60 -40 -20 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 Actual Count / Delay (s) Expected Normal Count / Delay (s)
  • 9. Ergebnisse 9 0 20 40 60 80 100 120 140 160 180 Avg. Delay without 0 and 30 (in Seconds) Austrian Holiday Period Weekend
  • 10. Ergebnisse 10 0 20 40 60 80 100 120 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Avg. Delay by Hour of the Day without 0 and 30 (in Seconds) 0 10 20 30 40 50 60 70 80 90 100 Monday Tuesday Wednesday Thursday Friday Saturday Sunday Avg. Delay by Day of the Week without 0 and 30 (in Seconds)
  • 11. Ergebnisse 11 0 20 40 60 80 100 120 ptTramWLB ptTramVRT ptTram ptBusCity ptBusNight ptMetro Avg. Delay by categorized by Transportation Type without 0 and 30 (in Seconds) barrierFree true false Tram delay in seconds 57.83 109.21
  • 12. 12
  • 13. Fazit 13 Wichtige Erkenntnisse • Die Analyse, Planung und Implementierung der Applikation konnten sehr gut die Herausforderungen der „3Vs“ wiederspiegeln: Volume: Speicherplatz in jedem Prozessschritt Velocity: Effizienter Code sammeln von fast Echtzeitdaten Variety: Dynamischer Code für unterschiedliche Daten Typen • Eine durchschnittliche Verspätung von ca. einer Minute deutet auf eine ziemlich gute Zuverlässigkeit, wenn man bedenkt, dass ein Großteil der Wiener Linien die Gleise mit Autos im Straßenverkehr teilt. • Ohne Vorkenntnisse zu den Daten und wenig Know-How zu den Tools  Aussagekräftige Auswertung Vorteile für die Wiener Linien. • Anpassung der Linien Fahrpläne mittels Machine Learning, in Abhängigkeit der Saison • Erkennung von Verkehrsbottelnecks  Präventive Maßnahmen  Effiziente Zuteilung der Ressourcen