1. Think BIG
Büyük Düşün!...
10 Nisan 2012 – İstanbul
11 Nisan 2012 – Ankara
Cüneyt Göksu, VBT
IBM Gold Consultant
IBM Champion for Data Management
Cuneyt.Goksu@vbt.com.tr
@CuneytG
http://www.linkedin.com/in/cuneytgoksu
2. Ajanda
1) Neden BIG Data? Buralara Nasıl Geldik?
2) BIG Data Bileşenleri nedir?
3) Mevcut Sistemler ile entegrasyonu nasıl olacak ?
4) BIG Data Uygulamaları var mı?
3. Instrumented, Interconnected, Intelligent World
4.6
30 billion RFID billion
tags today camera
(1.3B in 2005) phones
world %80 vs % 20
wide
100s of
millions Yapısal
of GPS
enabled
ve
devices Yapısal
sold Olmayan
annually
2+
billion
people
76 million smart on the
meters in 2009… Web by
200M by 2014 end
2011
4. Sosyal Ağlar ve Sosyal İş Yaşamı
• Ağustos 2012’de 1 Milyar kullanıcıya ulaşması
bekleniyor. 12TB/gün «log data» üretiliyor.
• 2012 sonunda 400+ Milyon kullanıcıya ulaşması
bekleniyor.
• 130 Milyon kullanıcı var.
• 100 million aktif kullanıcı. 12+ TB of tweet
data/gün!..
5. Sosyal Ağlar ve Sosyal İş Yaşamı
Google günde 24
Petabytes veri işliyor
4.6 Milyar cep
telefonu var
2 Milyar Internet kullanıcısının
2013’deki yıllık trafiği 667
Exabytes
6. Kullanıcılar sadece insanlar değil!..
Source: http://www.mediabistro.com/alltwitter/how-to-get-fido-to-tweet-infographic_b17521
7. Sensor güdümlü ve enstrüman temelli iş dünyası.
BÜYÜK miktarda veriyi, MAKİNA HIZINDA üretiyor.
Her motor 10TB/30 Dk veri üretiyor.
8. “Data generated by machines and sensors will
exceed that generated by social media by at
least a factor of 10.” *
Leon Katsnelson
Program Director, Big Data & Cloud Computing
IBM
* Makina ve duyargalar, sosyal medyadan 10 kat daha fazla veri üretiyorlar.
11. Ağustos 2010'da Adam Savage,
arabasının fotoğrafını akıllı
telefon ile çekip, üzerine de "işe
gidiyorum" yazarak, Twitter
adresine yükledi.
Fotoğraf akıllı telefon ile
çekildiğinden, çekildiği yerin
coğrafi bilgisi otomatik olarak
metadata içinde yer alıyordu.
Böylece Bay Savage, evinin,
arabasının yerini herkese
belirtmiş oldu, üstelik evde
yokken!
13. BIG Data Bileşenleri : 3V
Mevcut sistemlerin veri işleme ve analiz kapasitelerinin çok üstünde
kapasitelere ihtiyaç duyan, büyük miktarda, çeşitlilikte ve hızda türeyen
verilerin işlenerek değerlendirilmesi ve değer yaratılması
Variety Farklı yapılarda, çeşitlilikte ve
(Çeşit) karmaşıklıktaki verilerin
yönetilmesi. Yapısal, log, ham ve
yapısal olmayan gibi...
Velocity Büyük miktarda sürekli akışkan
(Hız) veri.
Volume TB'tan PetaByte'a (1K TBs),
(Hacim) Exabyte'a (1M TB), Zetabytes'a
(1B TBs) giden ölçekler
14. BIG Data Bileşenleri + 2V
Verification Veri güvenli olarak transfer edilmeli, doğru
(Doğrulama) kullanıcılar tarafından erişilebilmeli.
Value Son kullanıcı ve kurum için bir değer
(Değer) yaratabilmeli
15. Geleneksel BT: 30 Yıllık Transaction Yönetimi.
BT uzun yıllar "iş
transaction"larının ürettiği
verileri toplayıp buradan anlam
Analytics çıkardı.
Data
Veriler büyük oranda, kurum
içinde üretildi.
Yapılan analizler, «geleceği
tahmin etmek» yerine,
genellikle operasyonların
iyileştirilmesine yönelikti.
Operational
Systems CRM Censors
16. Geçmişin performanslı sistemleri, geleceğin tahmin
edilmesi için yeterli olmayabilir!
Sürekli geçmişi iyileştirmek ve onu gözlemek yerine nasıl ileriye odaklanacağız?
17. Houston... We have a problem!...
Bir kurumun çözümleyebileceği verinin yüzdesi, o kuruma
gelen verinin artış hızı ile orantılı olarak azalıyor.
Başka bir deyişle, zaman geçtikçe, işimiz hakkında daha az
bilgi sahibi oluyoruz.
Data AVAILABLE to
an organization
Data an organization
can PROCESS
18.
19.
20. IDUG (International DB2 Users Group) 2007 Konferansı - Keynote
Enterprise Intelligence
”Data finds the data … Relevance finds the user”
Jeff Jonas, Chief Scientist, IBM Entity Analytics
IBM Distinguished Engineer
JeffJonas@us.ibm.com
21. Big Data Analitik Uygulamaları
Smarter Healthcare Multi-channel Finance Log Analysis
sales
Homeland Security Traffic Control Telecom Search Quality
Manufacturing Trading Analytics Fraud and Risk Retail: Churn, NBO
22. Bazı Big Data uygulamaları
Log Analytics (IT for IT)
Smart Grid / Smarter Utilities
RFID Tracking & Analytics
Fraud / Risk Management & Modeling
360° View of the Customer
Warehouse Extension
Email / Call Center Transcript Analysis
Call Detail Record Analysis
IBM Watson
23. Gittikçe daha da fazla artan veri üretimi.
• Retailers collect click-stream data from Web site interactions and loyalty
card-drive transaction data
– This traditional POS information is used by retailer for shopping basket
analysis, inventory replenishment
– But data is being provided to suppliers for customer buying analysis
• Healthcare has traditionally been dominated by paper-based systems, but
this information is getting digitized
• Science is increasingly dominated by big science initiatives
– Large-scale experiments generate over 15 PB of data a year and can’t be
stored within the data center; then sent to laboratories
• Financial services are seeing larger volumes through smaller trading
sizes, increased market volatility, and technological improvements in
automated and algorithmic trading
25. Data In Motion
Bir önceki çözüm, yeni talep edilen 3G ihtiyaçlarına ve
artan iş ve veri hacmine cevap vermekten uzaktı.
Streams ve Netezza ortaklığındaki çözüm ile
- Yeni ürünlerin hazırlanıp, piyasaya sunulma süresi
saatlerden dakikalara indi.
- Verinin birleştirme ve yükleme zamanı %90 azaldı.
27. • Tamamen ücretsiz oyun olanakları sunuyor.
• Sanal ürünler satarak gelir elde ediyor.
• Aylık ortalama 232M aktif kullanıcı bulunuyor.
• Oyuncuların %95’i hiç alışveriş yapmıyor!
• Big Data analizi kullanarak oyun dünyasını altüst etti.
Biz aslında bir oyun şirketiymiş gibi gözüken bir veri
analizi şirketiyiz
Ken Rudin, Zynga VP of Analytics
29. Correlate combined risk and
impending weather threats to Dynamically
optimize inventory and updated risk
determine supply chain assessment
recommendations for assets in
projected path
Real-time
projections of
hurricane path
31. IBM Big Data Platformu
Nisan 5 duyurusu: IBM Big Data & Netezza Product Group
InfoSphere BigInsights
Hadoop temelli, az gecikmeli,
çeşitli ve yüksek hacimli veri
analizi
Hadoop
Information Stream Computing
InfoSphere Information Server Integration InfoSphere Streams
Yüksek hacimli veri entegrasyon Akışkan Veri için az gecikmeli
ve dönüşüm analiz
MPP Data Warehouse
IBM InfoSphere
Warehouse IBM Smart Analytics
Yüksek hacimli, yapısal veri IBM Informix Timeseries
System
analizi Time-structured analytics
Yapısal veri üzerinde
IBM Netezza High IBM Netezza 1000
BI+Ad Hoc operasyonel analiz
Capacity Appliance
Sorgulanabilir Arşivlenmiş Yapısal Veri Analizi
yapısal veri
32. Big Data Platformu ne yapar?
Farklı Çeşitlilikte Veri Analizi
Karışık özellikte veriler üzerinde daha önce
yapılamayan analizlerin yapılması.
Hareketli Bilgi Analizi
Yüksek hacimli akan verinin, ad-hoc analizi
Çok Yüksek Hacimli Veri Analizi
PB ölçeğinde verinin uygun fiat/performans kriterlerinde,
analizi
Keşfet ve Deneyle
Veri üzerinde Ad-hoc analiz, veri keşfi ve
deneyleme
Yönet ve Planla
Veri kurallarını, bütünlüğünü denetleme ve
uygulama
33. Tamamlayıcı Analitik
Geleneksel Yaklaşım Yeni Yaklaşım
Yapısal, Analitik, Mantıksal Yaratıcı, bütünlükçü düşünce, sezgisel
Veri Ambarı Hadoop
Streams
Transaction Data Web Kütükleri
Iç Uygulamalar
Yapısal Sosyal Veri
Structured Yapısal Değil
Unstructured
Repeatable Kurumsal Exploratory
Tekrar edilebilir
Mainframe Verisi Linear Entegrasyon Keşfedilebilir Text Veri: eposta
Iterative
Monthly sales reports Brand sentiment
Lineer
Profitability analysis
OLTP Sistemleri surveys Döngüsel
Product strategy
Customer Maximum asset utilization imaj
Duyarga Verisi:
ERP Geleneksel Yeni RFID
Kaynaklar Kaynaklar
34. Açık Kaynak Yazılımla iç içe!
• Açık Kaynak Topluluğa yıllardır yapılan katkılar
- Apache Hadoop ve Jaql, Apache Derby, Apache
Geronimo, Apache Jakarta
- Eclipse: IBM tarafından kuruldu.
- Lucene katıları, IBM Lucene Extension Library
(ILEL) kanalı ile...
- DRDA, XQuery, SQL, XML4J, XERCES, HTTP,
Java, Linux...
• Açık kaynak kodlu IBM Yazılımları
– WebSphere: Apache
– Rational: Eclipse ve Apache
– InfoSphere: Eclipse ve Apache
• IBM’s BigInsights (Hadoop) is %100 açık kaynak
kodlu bir yazılımdır
35. February 2012 “The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012”
Forrester Wave™: Enterprise Hadoop Solutions, Q1 ’2012
Amazon
IBM
Oracle
36. BIG Data teknolojilerini öğrenmenin eğlenceli ve
kolay yolu:
Satıcı bağımsız, topluluk
temelli, IBM ve diğer liderler
tarafından destekleniyor;
Esnek, çevrim içi eğitimler;
Ücretsiz kurslar ve çalışma
materyalleri;
Video destekli, kolay öğrenim
olanakları;
Bulut temelli alıştırma
imkanları;
14000+ kayıtlı öğrenci.
37. Cüneyt Göksu, VBT
IBM Gold Consultant
IBM Champion for Data Management
37
Cuneyt.Goksu@vbt.com.tr