5. Log özellikleri
Log lar anlık olarak toplanıyor
Her log çeşidi farklı bir topic altından HDFS üzerinde farklı dosyalara
kopyalanıyor
browsed , click , crash_reports , pc_info …
Bir topic altından günlük 20 milyona yakın data toplanabiliyor
Saatlik , günlük , haftalık , aylık bazda raporlar talep ediliyor
Log lar HDFS sisteminde saklanıyor
Her bir log un 3 farklı yerde kopyası saklanıyor (replication factor )
Log dosyaları SnappyCodec ile sıkıştırılıyor (Average compression rate %81)
6. Örnek Analizler
Ülke bazında tekil ziyaretçi sayısı
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
Kullanıcıların günlük olarak browser kullanım süreleri
Ülke ve kategori bazında web sitelerinde gezinme oranları
Shopping , travel , news …
9. Apache Pig
HDFS (Hadoop distributed file system ) üzerindeki verileri işlemek için kullanılan platformdur
Verileri işlemek için Pig Latin ismi verilen scripting dili kullanılmaktadır
20. Apache Pig – UDF(User Defined Functions)
Adım 1 - Java ile maven projesi oluşturulur
Adım 2 - pig ve hadoop-core dependency ler eklenir
Adım 3 - Örnek java program
Adım 4 - jar dosyası export edilir ve hdfs sistemine yüklenir
22. Apache Hive
Apache Hive ; büyük verileri işlememizi sağlayan SQL yapısına benzer açık kaynak kodlu
kütüphanedir
Örnek sorgular ;
SELECT COUNT(1) FROM www_access;
SELECT COUNT(distinct ip) FROM www_access WHERE url=‘www.google.com’;
SELECT ip, COUNT(1) FROM www_access GROUP BY ip LIMIT 30;
SELECT ip, COUNT(1) AS cnt FROM www_access GROUP BY ip ORDER BY cnt
DESC LIMIT 30;
23. Apache Hive – External Table
select count(1) as cnt, country from browsed where log_date = '2016-01-11' and type='search'
group by country;
CREATE EXTERNAL TABLE browsed( id string, date_time string, visitor_guid string,
referer_url string,
type str'ng)
PARTITIONED BY (log_date string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
ALTER TABLE browsed ADD PARTITION (log_date = '2016-01-01') LOCATION
'/data/stats/searches/2016_01_11/';
24. Pig , Hive , MapReduce
Pig
Script dili
Java ile MapReduce geliştirmenin alternatifi
Hive
SQL tabanlı
Basit raporlamalar için daha uygun . Kompleks işlemler için uygun değil
Metadata bilgisi tutabiliyor
MapReduce
Hive ve Pig e göre daha fazla geliştirme eforu gerekli
Pig ve hive ile geliştirilmiş kodlara göre daha hızlı çalışıyor
Join işlemleri daha zahmetli
26. Apache Oozie
Belirli periyotlarda iş akışı çalıştırılabilir
Saatlik , günlük , aylık , haftalık
İşlemler bittikten sonra mail atabilir
Belirli bir sırada iş akışı çalıştırılabilir
switch-case gibi control ifadesi eklenebilir
Paralel aksiyonlar çalıştırılabilir ve sonrasında bunlar birleştirilebilir
Çalıştırılabilen aksiyonlar
Pig , shell , hive , spark , java , map reduce , sqoop , fs (hdfs) ,ssh
27.
28. Apache Hue
Hadoop ekosistemindeki bazı teknolojilerin kullanımını kolaylaştırmak için web arayüzü sunan
açık kaynak kodlu bir kütüphanedir
Kullanılabilen teknolojiler
Hive , Oozie , Imlala , Pig , Oozie
29.
30. Apache Sqoop
Hadoop ile ilişkisel veritabanı arasında verilerin aktarılmasını sağlayan açık kaynak kodlu bir
kütüphanedir
sqoop-import --connect jdbc:mysql://$1/admarket --username $2 --password $3 --table
'domains_table' --delete-target-dir --target-dir $4 --columns 'adultdomain'