1. @AymenZaafouri
Tunis Big Data Meetup
21/11/2015 – Cogite Coworking Space
1
LEK stack : Logstash, ElasticSearch, Kibana
Tunis Big Data Meetup
2. Aymen ZAAFOURI
Ingénieur en statistique et analyse de l’information
Promotion 2014
Mastère spécialisé « Informatique décisionnelle »
Promotion 2015
Data Scientist
2Tunis Big Data Meetup
6. Input Filter Output
Logstash
o Version 2.0
o Il est développé en Java, sous licence Apache 2.0.
o Input: Syslog, IMAP, SGBD, IRC ,Twitter,…
o Filter: Standardisation des dates, Suppression des événements, …
o Output: ElasticSearch, MangoDB, Redis, …
Tunis Big Data Meetup 6
9. o 17 000 Commits (32 000 pour LEK)
o 35 000 000 Téléchargements
o 120 User groups dans 80 villes
o ElasticSearch est utilisé en production par:
o Wikipedia
o NASA
o Mozilla (300 millions d’événements par jour)
o Verizon ( 500 billion de documents)
Tunis Big Data Meetup 9
10. o Moteur de recherche:
– Moteur d’indexation de document
– Moteur de recherche sur les index
o Limites de la recherche SQL (% - Like):
– Pas de tolérance aux « Fotes » de frappe
– Performances désastreuses sur des millions de ligne
Tunis Big Data Meetup 10
11. Mots-clés
o Le mapping: l’équivalent du schéma dans une base de données
relationnelle.
o Un index: Un peu comme une base de données sur un SGBD relationnel.
o Les types: l’équivalent des tables dans un système relationnel.
o Les documents: comme les lignes dans une base de données relationnelle.
Les documents sont stockés au format JSON et ont un index, un type et un id en plus
des données.
Tunis Big Data Meetup 11
12. Points forts
o Simple mise en place.
o Rapide : Les recherches sont traitées en quasi temps réel grâce à la
parallélisation des traitements.
o Scalable : peut être distribué et plusieurs instances (nodes) peuvent
communiquer entre-elles dans un même cluster.
o Efficace : L’utilisation des bases NoSQL documentaires. Les données
sont automatiquement répliquées.
o Accessible : API REST
Tunis Big Data Meetup 12
16. Kibana
• Kibana est une interface web permettant de rechercher des
infos stockées dans ElasticSearch
Tunis Big Data Meetup 16
Indexation
Requête
Résultats
20. ES for Hadoop
Tunis Big Data Meetup 20
o On peut accéder à Elasticsearch comme si les données existent sur HDFS.
o Les jobs sont exécutés sur les mêmes machines que les shards Elasticsearch, ce qui permet
d’éliminer le trafic réseau et d’avoir une meilleure performance, grâce à la proximité des données.