1. Elasticsearch &
Wiener LinienAnalyse und Design einer Architektur basierend auf Elasticsearch und
Kibana zur Aufbereitung und Visualisierung von Fast-Echtzeit Daten
Raphael Fakhir, MSc
2. Masterarbeit Ziele
– Ein „Big Data“ Thema:
“The simplest definition of Big Data is it doesn’t fit in Excel”
- Stephane Hamel
The Big Data challenge The 3 Vs: Volume, Velocity & Variety
– Design einer gesamten Architektur zur Auswertung und Visualisierung von Daten.
– Eine praktische Umsetzung (Nicht nur Theorie).
2
3. Die Open Data Suche
– Open Data der Stadt Wien (data.gv.at).
– Unter Kategorie Traffic findet man Information zu den öffentlichen Daten der
Wiener Linien und ein Formular zur Beantragung eines API Keys.
– Der API Key gibt Zugriff zu den Echtzeit Daten der Wiener Linien.
– Diese können mittels HTTP GET Request abgefragt werden:
3
4. ELK-Stack: Elasticsearch, Logstash & Kibana
Der ELK-Stack oder Elastic Stack besteht aus drei Hauptkomponenten:
Elasticsearch: ist eine Suchmaschine auf Basis von Lucene, welches die Suchergebnisse in einem
NoSQL-Format (JSON) speichert und sie über ein RESTful-Webinterface aus gibt. Er ermöglicht auf
einfache Weise den Betrieb im Rechnerverbund zur Umsetzung von Hochverfügbarkeit und
Lastverteilung.
Logstash: ist ein Tool zum Sammeln, Verarbeiten und Weiterleiten von Events und Logs an externe
Programme, wie Elasticsearch.
Kibana: ist ein Browser basiertes Analytics and Search Interface für Elasticsearch, welches
hauptsächlich zur Visualisierung der Eventdaten aus Logstash verwendet wird.
4
5. Praktische Umsetzung
5
– Daten minütlich für ca. 2 Monate Daten sammeln
und speichern
– JSON Daten vereinfachen und linearisieren
– Elasticsearch aufsetzten und Mapping
konfigurieren
– Daten in Elasticsearch importieren
– Daten mittels Kibana auswerten und visualisieren
13. Fazit
13
Wichtige Erkenntnisse
• Die Analyse, Planung und Implementierung der Applikation konnten sehr gut die Herausforderungen der „3Vs“
wiederspiegeln:
Volume: Speicherplatz in jedem Prozessschritt
Velocity: Effizienter Code sammeln von fast Echtzeitdaten
Variety: Dynamischer Code für unterschiedliche Daten Typen
• Eine durchschnittliche Verspätung von ca. einer Minute deutet auf eine ziemlich gute Zuverlässigkeit, wenn man
bedenkt, dass ein Großteil der Wiener Linien die Gleise mit Autos im Straßenverkehr teilt.
• Ohne Vorkenntnisse zu den Daten und wenig Know-How zu den Tools Aussagekräftige Auswertung
Vorteile für die Wiener Linien.
• Anpassung der Linien Fahrpläne mittels Machine Learning, in Abhängigkeit der Saison
• Erkennung von Verkehrsbottelnecks Präventive Maßnahmen Effiziente Zuteilung der Ressourcen