2. Bilginin Değeri / Verinin Önemi
Yeni ekonomide bilgi, üretimin faktörlerinden birisi
Internet küreselleşmeyi körüklüyor
Rekabet artıyor
Kar marjları düşüyor
Müşteriyi memnun etmek her geçen gün zorlaşıyor
Tüketiciler, müşteriler bilgiyle donanıyor
Sadakatleri azalıyor/azalabiliyor
2
3. Değişen koşullarla başa çıkmanın çaresi:
Bilgi ile değer yaratmak
Verileri toplamak, bilgi üretme amacına yönelik
hazırlamak
Analiz etmek
Elde edilen bilgileri eyleme yönelik olarak
kullanmak
3
4. Dijitalleşmenin etkisi
Büyük miktarlarda verinin çok hızlı bir biçimde
toplanabilmesi
depolanabilmesi ve
analizinin mümkün olması
Bilgiye dönüştürülen verinin
doğru ve zamanında karar alabilmesi için onların
kullanıcılara sunulması
4
5. Veri Madenciliği Nedir?
Büyük miktarda veri içinden, gelecekle ilgili
tahmin yapmamızı sağlayacak bağıntı ve kuralların
aranmasıdır.
5
6. Veri Madenciliği Nedir?
Veri madenciliği, geniş veri
yığınları içerisinde, yararlı olma
potansiyeline sahip, aralarında
beklenmedik / bilinmedik
ilişkilerin olduğu verilerin
keşfedilerek, veri sahibi için hem
anlaşılır hem de kullanılabilir bir
biçime getirilmesine yönelik
geliştirilmiş yöntemler
topluluğudur.
6
7. Veri Madenciliği Nedir,
Ne Değildir?
Ne değildir?
Nedir?
Bazı isimlere bazı yörelerde
telefon rehberinde bir telefona
ait numaranın aranması
“Amazon” hakkında bilgi için
arama motorunda sorgulama
yapmak
diğerlerinden daha yaygın olarak
rastlama durumu
(O’Brien, O’Rurke, O’Reilly…
gibi isimlerin Boston bölgesinde
daha sık olması gibi)
Kapsamlarına göre benzer
dokümanların bir arada
gruplanması (Amazon yağmur
ormanları ile, Amazon.com gibi)
7
8. Veri Madenciliği Sihir değildir!
Veri madenciliği, veri tabanları, istatistik ve
yapay öğrenme konularının kavramlarına
dayanır ve onların tekniklerini kullanır.
8
9. Tarihçesi
Veri madenciliğinin kökeni ilk sayısal bilgisayar
olan ENIAC’a kadar dayanır.
1946 yılında geliştirilen ve bugünkü bilgisayarların
atası olan ENIAC ABD’de II.Dünya savaşı sırasında
ABD ordusu için geliştirildi.
30 ton ağırlığa ve 170 m³ hacme sahipti.
Yarım asırlık süre içerisinde bu devasa boyut
cebimize girer duruma geldi.
9
10. Tarihçesi
ENIAC’tan günümüze kadar olan sürede bu
evrimin gerçekleşmesi kullanıcı istekleri ile
meydana geldi.
Kullanıcıya sunulan yazılımların her geçen gün
farklı ihtiyaçlarla büyümesi sonucu, donanıma
olan ihtiyaç da doğru orantılı olarak arttı.
Anlaşıldığı üzere bu döngünün anahtarı
kullanıcıdır.
10
11. Tarihçesi
İlk zamanlar sadece karmaşık hesapları yapmaya
yarayan bilgisayarlar, kullanıcı ihtiyaçları
doğrultusunda veri depolama işlemleri için de
kullanılmaya başlandı.
Bu sayede veri tabanları ortaya çıktı.
Veri tabanlarının genişleme trendi içinde olması
donanımsal olarak bu verilerin tutulacakları
ortamların da genişlemesini gerektirdi.
Veri ambarı kavramının ortaya çıkışı bu dönemlere
rastlamaktadır.
11
12. Tarihçesi
Kaybedilmek istenmeyen veriler, bir ambar misali
fiziksel sürücülerde tekrar kullanılmak üzere
saklandı.
Veri tabanları büyüdü ve buradan bilgiye ulaşmak
güçleşti.
Bu safhada veri modelleme kavramı ortaya çıktı.
İhtiyaçlar doğrultusunda şekillenen veri tabanları
ve veri modelleme çeşitleri hızla yaygınlaştı.
Donanımlar da bu gelişmeye ayak uydurdu.
12
13. Tarihçesi
Günümüzde milyarlarca bit veriyi ufacık
belleklerde tutmak mümkün hale gelmiştir.
İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda
şekillendirse de bazı sorunlar da ortaya
çıkmaktadır.
Verilerin saklanması, düzenlenmesi, organize
edilmesi sorun gibi görünmese de bu kadar çok
veri ile sonuca ulaşmak başlı başına bir sorun
haline gelmiştir.
13
14. Tarihçesi
1960’lı yıllarda veri madenciliği kavram olarak
kullanılmasa da o dönemlerde bilgisayar
yardımıyla yeterince uzun bir tarama yapıldığında
istenilen verilere ulaşmanın mümkün olacağı
gerçeği kabullenildi.
Bu işleme o dönem veri taraması (data
dredging), veri yakalaması (data fishing) gibi
isimler verildi.
14
15. Tarihçesi
1990’lı yıllarda bu işleme Veri Madenciliği denildi.
Geleneksel istatistiki yöntemler yerine, veri analizi
bilgisayar modülleri tarafından yapıldı.
Bu tarihten itibaren Veri Madenciliği; veri tabanları ve
makine öğrenimi disiplini ile birlikte yol aldı.
Bilgisayarların spesifik konularda kestirim
algoritmaları üretmeye yönelik inşa edilmesi ile
uygulamalı istatistik ve makine öğrenim kavramları
veri madenciliği altında bir araya getirildi.
15
17. Veri Madenciliği Kullanım Alanları
o Bankacılık: Risk analizleri ve
usulsüzlük tespiti.
o Pazarlama: Çapraz satıĢ
analizleri, müĢteri
segmentasyonu.
o Sigortacılık: MüĢteri kaybı
sebeplerinin
belirlenmesi, usulsüzlüklerin
önlenmesi.
o Telekomünikasyon: Hile
tespiti, hatların yoğunluk
o Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.
tahminleri.
o Tıp: Tıbbi teĢhis, uygun tedavi sürecinin belirlenmesi.
o Bilim ve Mühendislik: Amprik veriler üzerinde modeller
kurularak bilimsel ve teknik problemlerin çözümlenmesi.
o Endüstri: Kalite kontrol, lojistik.
17
18. Kredi Kartı
müşterimiz aylık
ortalama
harcaması
su kadar
Vadeli ve vadesiz
mevduatı var
otomatik ödeme?
Konut kredisi almış
Hem bireysel
hem kurumsal krize rağmen ödemesini
aksatmamış
müşterimiz
Her ay
en az
Hizmetlerimizin
5 kez uğrar
çoğunu
yeni bir iş
alıyor
kuracak
Yeni
Müşteri!
Eski müşterimiz
bankaya
4 aydır
uğramadı
inaktif
Otomatik
Daima
ödeme
Promosyon
Kuponu kullanır talimatı var
Yeni
bebekleri
oldu
Bir zamanlar
en iyi müşterimizdi
Rakibimizle çalışıyor
22. Bilgi Keşfinin Aşamaları
Uygulama alanını inceleme
Konuyla ilgili bilgi ve uygulama amaçları
Amaca uygun veri kümesi oluşturma: Veri seçme
Veri ayıklama ve önişleme
Veri azaltma ve veri dönüşümü
incelemede gerekli boyutları (özellikleri) seçme, boyutlar
arası ilişkiyi belirleme, boyut azaltma,
Veri madenciliği tekniği seçme
Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
Veri madenciliği algoritmasını seçme
Model değerlendirme ve bilgi sunumu
Bulunan bilginin yorumlanması
22
23. Veri Madenciliği Standard Süreci
Bilgi İhtiyacı
AMAÇ
Veri Kaynakları
Veri İnceleme
Veri Hazırlama
VERİ
Kullanma
Modelleme
Değerlendirme
24. Veri Madenciliği Süreci
Veri Madenciliği bir yöntem değildir bir süreçtir. Bu
süreçte ana unsur süreci gerçekleştiren uygulamacıdır.
Süreçte bulunan adımlar doğru olarak yerine
getirilmediği sürece istenilen sonuca ulaşılması
mümkün değildir.
24
25. Veri Madenciğinin Amacı
Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi
(ihtiyaç duyulan bilgi)
Kampanya sırasında satış teklifini kabul etme olasılığı
yüksek olan müşterileri isabetli tespit edecek modeli
kurmak (veri madenciliğinin amacı)
Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
Siteden alışveriş yapan ile yapmayan uzun süre kalan
ile kalmayanı ayırt edecek faktörleri belirleyecek
modeli kurmak
25
26. Bilgi ihtiyacının belirlenmesi
aşamasında
Personel
Veri
mevcut mu, elde edilebilir mi?
Donanım
verilerin depolandığı,
analiz için verinin seçilip yerleştirileceği donanım yeterli mi?
Yazılım
veriye erişmek, analizini yapmak,
raporlama ve sonuçları kullanıma sunmak için uygun mu?
26
27. 1. Aşamada nelere dikkat edilmeli
Fayda/maliyet analizi
Başarı kriterinin belirlenmesi:
ihtiyaç duyulan bilgiyi elde etme derecesi
bu bilginin amaca ne derece hizmet ettiği
kriter sadece modelin tahmin gücünün yüksek olması değil elde
edilen bilginin taşıdığı değer
Modelin tahmin gücünün yanı sıra satış başarı oranı
nedir?
Sunulan teklifler hangi oranda kabul görmüştür?
27
28. Veri kaynaklarının belirlenmesi
Veriler hangi kaynaklardan elde edileceğine karar
verilmesi
İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi
durumunda
hangi ortamda nasıl birleştirileceğine
aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi
28
29. VERİ KAYNAKLARI - Örnek
E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri
sayısını artırmak (amaç)
Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
VERİ KAYNAKLARI
Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta
görüntülediklerinin vb. verilerin tutulduğu dosyalar
Üye müşteri bilgilerinin tutulduğu dosyalar
Alışveriş işlem verilerinin tutulduğu dosyalar
29
30. Verilerin incelenmesi, anlaşılması
Veri nasıl tanımlanmış
kodlamalar
meta data: veri hakkındaki veriler
Veri kalitesinin incelenmesi
eksik veri olup olmadığına
veri girişinin hatalı olup olmadığına
kodlamalarda uyumsuzluk
meta data hataları
30
31. Verilerin incelenmesi - kavranması
Verinin keşfi ve hazırlanması
Amaç: başlangıçta veriyle ilgili fikir elde etmek
Tablolamalar Grafikler
OLAP küpleri: Çok boyutlu tablolamalar
Çeşitli kriterlere göre gruplandırmalar
Satış dağılımları
Bölgeler
Ürünler veya
Şube/mağaza bazında
Ortalamalar, toplamlar, sapmalar
31
32. 2. Aşamada nelere dikkat edilmeli
Veri kalitesi
Eksik veri
Veri girişlerinde hata
Kodlamalarda uyumsuzluk
Meta data hataları
32
33. Verilerin hazırlanması
Hangi veri alanları (değişkenler, sütunlar)
Hangi kayıtlar (satırlar) kullanılacak
Örnekleme
Gözlem sayılarının fazla olması durumunda zaman kazandırır,
maliyeti azaltır
Tabakalar; kampanyadan alanları ve almayanları kapsamak
açısından önemli
33
34. Verilerin temizlenmesi
Verinin eksikliği ve veri kirliliğinin giderilmesi
İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi
Tahmin yöntemiyle tamamlanması
Hatalı verilerin
Veri girişi esnasında önlem alma
Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok
gözüküyor
34
35. Yeni veriler oluşturmak
Verileri bazı işlemler yaparak farklı bir veri setine
dönüştürmek
logaritma
toplam, bölüm, fark
yeniden kodlama
Faktör analizi ile değişkenleri daha az sayıda
boyutlara indirgemek (RFM indeksi gibi)
35
36. Verileri hazırlarken nelere dikkat edilmeli
Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı
Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı
Eksik verilerin sistematik bir hataya yol açıp açmayacağı
kontrol edilmeli
Birbirine eşdeğer tekrar niteliğinde olan veri alanları
ayıklanmalı
Eklenecek yeni değişkenin verisini hazırlamak için
gereken çabaya değer mi?
36
37. Modelin oluşturulması
Modelin amacı:
Sınıflandırma
Tahmin
Modelleme tekniği
Modelin varsayımlarının kontrol edilmesi
Algoritmaların seçilmesi
Modelin uygunluğunun test edilmesi
İsabetli tahmin oranı
37
38. Sürecin ve modelin değerlendirilmesi
Modelin bulgularının incelenmesi
Hangi gruplara ayırmış
Bu grupların özellikleri nelerdir
Model kurma ve bunun için gerekli verilerin elde
edilmesi kullanıma hazırlanma sürecinin
değerlendirilmesi
İhtiyaç duyulan bilgi gerçekten elde edilmiş mi?
38
39. Şu Anda!
Elde ne var biliyorsunuz
Modeliniz, modelleriniz, bulgularınız
Nasıl elde ettiğinizi biliyorsunuz
hangi verileri,
hangi aşamalardan geçirip hazırladıktan sonra
hangi modeli, tekniği kullanarak
39
40. Değerlendirme sonucu alternatifleriniz
Modeli ve bulguları kullanmak
Daha iyi, daha güçlü bir model kurma kararı
Kullanmaya değer bulmamak
Yeni bir veri madenciliği süreci başlatmak
40
43. Veri Madencililiği Sisteminin Yapısı
Grafiksel Kullanıcı
Arayüzü
Desen
Değerlendirme
Veri Madenciliği
Motoru
Veri Filtreleme
Veri BirleĢtirme
Bilgi
Tabanı
Veritabanı veya
Veri ambarı
Sunucusu
Filtreleme
Veritabanı
Veri
Ambarı
43
44. Veri Madenciliği Uygulama Alanları
Veritabanı analizi ve karar verme desteği
Pazar araştırması
Hedef Pazar, müşteriler arası benzerliklerin
saptanması, sepet analizi, çapraz pazar incelemesi
Risk analizi
Kalite kontrolü, rekabet analizi, öngörü
Sahtekarlıkların saptanması
Diğer Uygulamalar
Belgeler arası benzerlik (haber kümeleri, e-posta)
Sorgulama sonuçları
44
45. Problemler
Hangi promosyonu ne zaman uygulamalıyım?
Hangi müşteri aldığı krediyi geri ödemeyebilir?
Bir müşteriye ne kadar kredi verilebilir?
Sahtekarlık olabilecek davranışlar hangileridir?
Hangi müşteriler yakın zamanda kaybedilebilir?
Hangi müşterilere promosyon yapmalıyım?
Hangi yatırım araçlarına yatırım yapmalıyım?
45
46. Pazar Araştırması (1)
Veri madenciliği uygulamaları için veri kaynağı
Kredi kartı hareketleri, üyelik kartları, ucuzluk
kuponları, pazar anketleri
Hedef pazarlar bulma
Benzer özellikler gösteren müşterilerin bulunması:
benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
Müşterilerin davranışlarında zaman içindeki değişiklik
Tek kişilik banka hesabının ortak hesaba çevrilmesi:
evlilik
Çapraz pazar incelemesi:
Ürün satışları arasındaki ilişkiyi bulma
46
47. Pazar Araştırması (2)
Müşteri profili
Hangi özellikteki müşterilerin hangi ürünleri aldıkları
(demetleme veya sınıflandırma)
Müşterilerin ihtiyaçlarını belirleme
Farklı müşterilerin o anki ilgisine yönelik ürünü bulma
Yeni müşterileri hangi faktörlerin etkilediğini bulma
47
48. Sahtekarlık İncelemesi
Sigorta, bankacılık, telekomünikasyon alanlarında
Geçmiş veri kullanılarak sahtekarlık yapanlar için bir
model oluşturma ve benzer davranış gösterenleri
belirleme
Örnek:
Araba sigortası
Sağlık Sigortası
Kredi kartı başvurusu
48
49. Risk Analizi
Finans planlaması ve bilanço değerlendirmesi
nakit para akışı incelemesi ve kestirimi
talep incelemesi
zaman serileri incelemesi
Kaynak planlaması
kaynakların incelenmesi ve uygun olarak dağıtılması
Rekabet
rakipleri ve pazar eğilimlerini takip etme
müşterileri sınıflara ayırma ve fiyat politikası belirleme
49
50. Örnek Uygulamalar
Bağıntı
“Çocuk bezi alan müşterilerin 30%’u bira da alır.”
(Basket Analysis)
Sınıflandırma
“Genç kadınlar küçük araba satın alır; yaşlı, zengin
erkekler ise büyük, lüks araba satın alır.”
Regresyon
Kredi skorlama (Application Scoring)
50
51. Örnek Uygulamalar
Zaman içinde Sıralı Örüntüler
“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan
müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.”
(Behavioral scoring, Churning)
Benzer Zaman Sıraları
“X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla
benzer hareket ediyor.”
51
52. Örnek Uygulamalar
İstisnalar (Fark Saptanması)
“Normalden farklı davranış gösteren müşterilerim var mı?”
Fraud detection
Döküman Madenciliği (Web Madenciliği)
“Bu arşivde (veya internet üzerinde) bu dökümana benzer
hangi dökümanlar var?”
52
53. Facebook
Adınız ve Soyadınız ile üye oluyorsunuz,
Arkadaşlarınızı listenize ekliyorsunuz,
Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli
konularda hazırlanmış ufak imajlar yolluyorsunuz.
http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121
53
54. Facebook
Süper markete gittiniz, tuvalet kağıdı, sigara
ve bir de bira aldınız, kartınızı uzattınız
kasiyer ödemeyi almak için geçirdi.
Kasa bilgisayarı son hızla bankaya ödeme
bilgilerini sorarken merkez bilgisayara
isim bilginizi yollar,
54
55. Facebook
Ana bilgisayar isminiz ve satın aldığınız
ürünlerin bağlı olduğu ürün grupları ile,
facebook da yolladığınız ve aldığınız
poke`leri sıklığına göre karşılaştırır.
Elde ettiği veriyi belirli tolerans
aralıklarında filtre eder,
En fazla içki veya yiyecek konusunda poke
yolladığınız ve en sık iletişimde kaldığınız
arkadaşınızı bulur.
55
56. Facebook
ve daha siz kasiyerin kartınızı geçirdiğini bile
algılayamadan önünüzdeki LCD ekranda en yakın
arkadaşınız Ahmet`in facebook resmi belirir,
Altında da şu yazar:
Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi
ile Efes biralarınızı yudumlar eski günlerden
konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile
sadece 2 kontör
56
57. Hepsiburada.com Örneği
Hepsiburada.com’dan yapılan alışverişler ve sitede
yapılan gezintiler log’larda kayıt altına alınıyor.
Ayrıca müşteri profiline bakılarak müşterinin nasıl bir
karaktere sahip olduğu bilgisine de ulaşılıyor.
Satışlarını arttırmak isteyen bu portal, müşterileri
kazanmak için müşteriye özel kampanyalar
gönderiyor.
İşte burada Veri Madenciliği kavramı ile karşı
karşıyayız.
57
58. Hepsiburada.com Veri Madenciliği ile müĢterinin sitedeki
gezintilerine ve profiline uygun olarak mailler
gönderilmektedir.
Böylece müĢteriye özel olduğu hissettirilirken; müĢterinin
siteden alıĢveriĢ yapması teĢvik edilir.
58
59. Size Özel Fırsatlar !!!
Sn Engin Çakır,
Öncelikle Hepsiburada.com'u tercih ettiğiniz için teĢekkür ederiz. SipariĢlerinizde bizi tercih ettiğiniz için
aĢağıdaki fırsatlar size özel tanımlanmıĢtır.(*)
Size Özel Fırsat
HAYAT ATÖLYESĠ
% 10 indirim!
SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDĠYE )
85 TL indirim!
DIGIPHONE K8800 CARBON ÇĠFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDĠYE )
% 18 indirim!
SAMSUNG MÜZĠK MASA STANDI MDS-60
% 75 indirim!
BEYAZ KAPLAN
% 10 indirim!
MobiX-Blue BLUETOOTH FCT CĠHAZI ( KOLAY KULLANIM )
% 10 indirim!
AVCININ KADERĠ
% 10 indirim!
ĠġARET
% 10 indirim!
ĠNTERAKTĠF ÇĠNCE EĞĠTĠM SETĠ (8 KĠTAP, 8 CD, 8 CD–ROM)
% 25 indirim!
MELEKLER VE ġEYTANLAR (CEP BOY)
% 10 indirim!
AÇLIK OYUNLARI
% 10 indirim!
Size özel tüm fırsatları görmek için tıklayınız.
Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriĢ yapıldığı
takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alıĢveriĢler için geçerlidir.
59
60. Sipariş no : 63657082
Sipariş Tarihi : 27.12.2008
Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.
#
Ürün
Adet
Gönderilen
1.
MOBILLIFE DĠJĠTAL DERGĠ
ABONELĠĞĠ (3 AY)-3 Ay
1
1
2.
GENERAL MOBILE G777 ( 1 GB
HAFIZA KARTI HEDĠYE )
1
1
Ödeme Şekli : Garanti 6 Taksit
Bekleyen
Birim Fiyat
Günün Fiyatı
İndirim
Toplam (TL )
0
0,00 TL
6,36 TL
6,36 TL
0,00 TL
0
202,45 TL
202,45 TL
0,00 TL
202,45 TL
Toplam İndirim :
Ara Toplam :
202,45 TL
KDV :
36,44 TL
Sipariş Toplamı :
Sipariş no : 68156663
6,36 TL
238,89 TL
Sipariş Tarihi : 19.01.2007
Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.
#
Ürün
1.
SAMSUNG E900 ( 512 MB HAFIZA
KARTI HEDĠYE )-Siyah
Adet
1
Gönderilen
1
Ödeme Şekli : Garanti 12 Taksit
Bekleyen
0
Birim Fiyat
496,25 TL
Günün Fiyatı
496,25 TL
İndirim
0,00 TL
Toplam (TL )
496,25 TL
Ara Toplam :
496,25 TL
KDV :
89,33 TL
Kargo Ücreti :
1,98 TL
Sipariş Toplamı :
587,56 TL
60
61. Sipariş no : 21577684
Sipariş Tarihi : 18.11.2006
Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.
Ödeme Şekli : HSBC 8 Taksit
Adet
1
1
0
Birim Fiyat
0,00 TL
500,40 TL
500,40 TL
90,07 TL
Sipariş Toplamı :
Sipariş no : 56932027
Bekleyen
Toplam
(TL )
KDV :
SONY DCR-HC23E VĠDEO KAMERA (MĠNĠ DV)
+ SONY ÇANTA + SONY 5 ADET DVM 60 BOġ
1. KASET HEDĠYELĠ
Gönderile
n
İndirim
Ara Toplam :
# Ürün
Günün
Fiyatı
590,47 TL
500,40 TL ######
Sipariş Tarihi : 09.05.2006
Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.
Ödeme Şekli : Garanti 8 Taksit
Adet
Gönderile
n
Bekleyen
Birim Fiyat
Günün
Fiyatı
İndirim
Toplam
(TL )
COLD COMPRESS-2sn DE BUZ KOMPRES
1. 571142
1
1
0
0,00 TL
6,65 TL
6,65 TL
0,00 TL
2. GUARD OTOMOBĠL BRANDASI 081106-GRUP6
1
1
0
36,20 TL
36,20 TL
0,00 TL
36,20 TL
PIRANHA PC1211 2.0 MEGAPĠKSEL
AYARLANABĠLEN IġIKLI+DivX KAYIT +
3. MĠKROFONLU + 10X DĠJĠTAL ZOOM + TÜRK
1
1
0
25,27 TL
25,27 TL
0,00 TL
25,27 TL
Toplam İndirim :
6,65 TL
Ara Toplam :
61,47 TL
KDV :
11,07 TL
Sipariş Toplamı :
72,54 TL
# Ürün
61
62. Müşterinin gezindiği siteler kayıt altına alınmış.
Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş
yapmamış.
Müşteri siteden daha önce cep telefonu satın almış.
Müşteri teknoloji ürünlerini siteden takip ediyor.
62
63. Amazon.com Örneği
Ġskandinav ülkelerinin portalı olan Jubii internet sitesi,
sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize
edebilmek için müĢteri profillerini ve davranıĢlarını belirlediler.
Sayfalar yeni müĢteri profillerine göre çalıĢmaya baĢladığında
verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve
böylece reklam verenler verdikleri reklamlar sonucunda daha
fazla ziyaretçi almaya baĢladıklarından Jubii ‘nin karı arttı.
Ziyaretçi davranıĢ modelleri Jubii’ye reklam gelirlerini artırma
yönünde imkan sağladı.
63
64. Bu konuya en güzel örnek www.amazon.com ‘un
kullandığı yazılımdır. Amazon.com bu sayede
müĢterilerinin davranıĢlarını, hobilerini, isteklerini
anlıyor ve zaman zaman müĢterilerine özel ürünler
sunuyor.
64
69. Veriden Öğrenme
Verilmiş örnek kümesi X={xt,yt}t üzerinde
f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz.
E
t
yt
f * (x t )
2
69
70. Uygulama Tipleri
Sınıflandırma: y in {C1, C2,…,CK}
Regresyon: y in Re
Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı
Öbekleme: x ’leri benzerliğe göre gurupla
70
75. Veri Görselleştirme
Görsel Analiz için veriyi daha az boyutlu (tercihen 2)
olarak çiz.
Verinin yapısının; grupların, istisnaların gözlenmesi
75
77. Zaman Serisi Tahmini
?
zaman
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan
GeçmiĢ
Discovery of frequent episodes
ġimdi
Gelecek
77
78. Metodoloji
Ġlk
Standard
Form
Öğrenme
kümesi
Model 1
Model 2
Yeterince
iyi ise
kabul et
En iyiyi
seç
Model L
Deneme
kümesi
Veri azaltma:
DeğiĢken sayısı ve değer
azaltma
En iyi
model
EğitilmiĢ
modelleri
deneme kümesi
üzerinde dene ve
en baĢarılısını seç
Olası modelleri
öğrenme kümesi
üstünde eğit
78
79. Kestiricileri Eğitmek için Teknikler
Parametrik Çokboyutlu İstatistik
Bellek tabanlı (Örnek tabanlı) Modeller
Karar Ağaçları
Yapay Sinir Ağları
79
80. Sınıflandırma
x : d-boyutlu değişkenler vektörü
C1 , C2 ,... , CK : K sınıf
Şüphe
Veriden P(Ci|x) hesaplanır ve
olasılığı en yüksek sınıf k seçilir
P(Ck|x)=maxj P(Cj|x)
80
82. Bayes Kuralı
p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı
P(Cj) : Sınıf j’nin ilk olasılığı
p(x)
: Herhangi bir örneğin x olma olasılığı
P(Cj|x) : x olan bir örneğin sınıf j’den olma
olasılığı (son olasılık)
82
83. İstatistiksel Yöntemler
Sınıf dağılımları, p(x|Cj) için parametrik (Gauss)
model varsayılıyor
x
Tek boyutlu
1
p (x | C j )
Çok boyutlu
p (x | C j )
2
2
j
d
1
(2 )
)2
j
2
j
x
d /2
exp
(x
Σj
exp
1
(x
2
μ j )T Σ j 1 ( x
μj )
83
84. Sınıflandırıcıyı Eğitmek
Veri {xt}t ’in ait olduğu sınıf Cj
Tek boyutlu: p(x|Cj)~N ( j,
xt
ˆj
x
t
Cj
nj
)
ˆ j )2
( xt
ˆ j2
j
ˆ
P (C j )
t
x Cj
nj
nj
n
Çok boyutlu: p(x|Cj)~Nd ( j, j)
xt
ˆ
μj
xt C j
nj
ˆ
ˆ
(xt μ j )(xt μ j )T
ˆ j2
xt C j
nj
84
91. Davranışlar ve Riskler
i:
davranış i
( i|Cj) : Sınıf Cj iken
kayıp.
i davranışının riski:
i
davranışını almanın getirdiği
R( i |x) = j ( i|Cj) P(Cj |x)
En az riskli davranışı seç:
R(
k |x
) = mini R(
i |x
)
91
93. Regresyon
yt
f (x t | )
gürültü. Doğrusal regresyonda parametreler w,w0
f (x t | w ,w 0 ) wx t
E (w ,w 0 )
(y
t
wx
w0
t
t
E
E
w
E
0,
w0
w 0)
2
0
w
93
95. Yüksek Dereceli Regresyon
Örneğin, ikinci dereceden
t
f (x | w 2 ,w 1 ,w 0 ) w 2 x
E (w 2 ,w 1 ,w 0 )
(y
t
t
t2
w 2x
w 1x
t2
t
w 1x t
w0
w 0 )2
95
97. Çok Değişkenli Doğrusal Regresyon
(Scoring)
d değişken sayısı
t
t
t
f (x 1 , x 2 , , x d | w 0 ,w 1 ,w 2 , ,w d )
t
w 1x 1
w 2x 2
t
wd xd
t
w0
wT x
E (w 0 ,w 1 ,w 2 , ,w d )
y
t
t
t
1
t
t
f (x , x 2 , , x d | w 0 ,w 1 ,w 2 , ,w d )
2
97
98. Özellik Seçme
Özellikler Altkümesi Seçimi
İleriye veya Geriye doğru seçim
Doğrusal İzdüşüm
Temel Bileşenler Analizi (PCA)
Doğrusal Ayırıcı Analizi (LDA)
98
99. Sıralı Altküme Seçimi
Ġleriye Doğru Seçim
(x1)
(x2)
(x 1 x 3 )
(x3)
(x4)
(x2 x3)
(x1 x2 x3)
(x 3 x 4 )
(x2 x3 x4 )
Geriye Doğru Seçim
(x 1 x 2 x 3 x 4 )
(x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4)
(x2 x4) (x1 x4) (x1 x2)
99
102. Bellek Tabanlı Yöntemler
Örnek tabanlı karar verme
En yakın komşu algoritması
Bilinen geçmiş örnekleri bir liste içinde saklayıp
buradan ara değerleme ile çıktı hesaplanır.
102
110. Yapay Sinir Ağının Eğitilmesi
d değişken
o
g ( wT x )
g
d
i 0
Öğrenme kümesi:
wixi
X
x ,y
t
t
X üzerindeki hatayı en aza indiren w ’yi bul
2
E (w | X )
y
t X
t
o
t 2
yt
t X
g
i
wixi
110
111. Doğrusal Olmayan En İyileme
E
Wi
wi
E
wi
Eğim iniĢ:
Tekrarlı öğrenme
öğrenme hızı
111
112. Sınıflandırma için Yapay Sinir Ağları
K tane sınıf için
oj , j=1,..,K çıktı
Her oj , P (Cj|x)’yi kestirir
oj
sigmoid ( wTj x )
1
1
exp( wT x )
j
112
113. Çok Sınıflı Doğrusal Yapay Sinir Ağı
o2
o1
oK
wKd
x0=+1
o
t
j
x1
xd
x2
T
j
t
g (w x )
g
d
i 0
w ji x
t
i
113
114. Tekrarlı Öğrenme
X
xt , yt
E (w | X )
y
t
o tj
j
t
j
o
t 2
j
g ( wTj x t )
w ji
Doğrusal
Doğrusal
olmayan
E
w ji
E
oj
oj
w ji
t
y tj
o tj g ' ( )x i
w ji
y tj
o tj x i
w ji
y tj
o tj o tj (1 o tj )x i
114
118. Modelleri Değerlendirme
1.
2.
M ’nin gelecekteki gerçek veri üzerindeki başarısını
nasıl ölçebiliriz?
M1 , M2 , ..., ML arasında en iyisi hangi modeldir?
118
121. Modelleri Birleştirme : Nasıl?
Ġlk
Standard
Form
Öğrenme
kümesi
Model 1
Model 2
Oylama
Model L
Geçerleme
kümesi
121
122. Kredi Skor Hesabı (Credit Scoring)
Başvuru (application) ve davranış (behavioral) skor
hesabı
İstatistiksel bir model olarak skorkartı
İyi ve kötü risk müşteriler
Alanların doğrusal toplamı:
Kredi kartı var mı? Evet: +50
Hayır: –20
122
123. Kredi Skor Hesabında Kullanılan
Alanlar
İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl
Ev durumu: Sahip, kiracı, diğer
Postakodu: Kodlanmış
Telefon: Evet, hayır
Yıllık gelir: Kodlanmış
Kredi kartı: Evet, hayır
Yaş: 18-25, 26-40, 41-55, 55+ yıl
Meslek: Memur, işçi, serbest, işsiz, ...
Medeni hali: Evli, bekar, diğer
Bankanın müşterisi olduğu zaman: yıl
Çalıştığı kurumda çalışma zamanı: yıl
123
124. Kredi Skor Hesabının Yararları
Daha doğru karar vermeyi sağlar.
Skorkartı standardizasyon ve nesnel karar getirir.
Hızlı ve ucuzdur.
Kullanılan tek skorkartının üzerinde kurumun kontrolü
vardır.
Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde
hesaplanabilir.
124
125. Sepet Analizi (Basket Analysis)
X ve Y malları arasındaki ilişki
X, Y: 0/1
Destek (Support):
P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı /
Toplam müşteri sayısı
Güven (Confidence):
P(X|Y)=P(X ve Y)/P(Y) =
X ve Y mallarını satın almış müşteri sayısı / Y malını satın
almış müşteri sayısı
125
127. Sonuçlar: Verinin Önemi
Amaç, büyük miktardaki ham veriden değerli bilginin
çıkarılmasıdır.
Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi
öncelikle verinin kalitesine bağlıdır.
Veri madenciliği simya değildir; taşı altına döndüremeyiz.
127
128. Sonuçlar: Uzmanın Önemi
Veri madenciliği, uygulama alanındaki uzmanların ve
bilgisayarın ortak çalışmasıdır.
Uygulama ile ilgili ve yararlı olabilecek her tür bilginin
(simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme
verilmesi gerekir.
Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi
gerekir.
128
129. Sonuçlar: Sabrın Önemi
Veri madenciliği tek aşamalı bir çalışma değildir;
tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.
Veri madenciliği uzun bir çalışma olabilir. Büyük
beklentiler büyük hayal kırıklıklarına neden olur.
129
130. Tekrar: Madencilik için Gerekenler
Çok miktarda kaliteli veri
İlgili ve bilgili uzmanlar:
1. Uygulama alanı
2. Veri Tabanları (Veri Ambarcılığı)
3. İstatistik ve Yapay Öğrenme
Zaman ve sabır
130