SlideShare une entreprise Scribd logo
1  sur  131
Engin ÇAKIR
Bilginin Değeri / Verinin Önemi
 Yeni ekonomide bilgi, üretimin faktörlerinden birisi
 Internet küreselleşmeyi körüklüyor
 Rekabet artıyor
 Kar marjları düşüyor
 Müşteriyi memnun etmek her geçen gün zorlaşıyor
 Tüketiciler, müşteriler bilgiyle donanıyor
 Sadakatleri azalıyor/azalabiliyor
2
Değişen koşullarla başa çıkmanın çaresi:
 Bilgi ile değer yaratmak
 Verileri toplamak, bilgi üretme amacına yönelik
hazırlamak
 Analiz etmek
 Elde edilen bilgileri eyleme yönelik olarak
kullanmak
3
Dijitalleşmenin etkisi
 Büyük miktarlarda verinin çok hızlı bir biçimde
 toplanabilmesi
 depolanabilmesi ve
 analizinin mümkün olması

 Bilgiye dönüştürülen verinin
 doğru ve zamanında karar alabilmesi için onların

kullanıcılara sunulması

4
Veri Madenciliği Nedir?

 Büyük miktarda veri içinden, gelecekle ilgili

tahmin yapmamızı sağlayacak bağıntı ve kuralların
aranmasıdır.

5
Veri Madenciliği Nedir?
 Veri madenciliği, geniş veri

yığınları içerisinde, yararlı olma
potansiyeline sahip, aralarında
beklenmedik / bilinmedik
ilişkilerin olduğu verilerin
keşfedilerek, veri sahibi için hem
anlaşılır hem de kullanılabilir bir
biçime getirilmesine yönelik
geliştirilmiş yöntemler
topluluğudur.

6
Veri Madenciliği Nedir,
Ne Değildir?
 Ne değildir?

 Nedir?
 Bazı isimlere bazı yörelerde

 telefon rehberinde bir telefona

ait numaranın aranması
 “Amazon” hakkında bilgi için
arama motorunda sorgulama
yapmak

diğerlerinden daha yaygın olarak
rastlama durumu
(O’Brien, O’Rurke, O’Reilly…
gibi isimlerin Boston bölgesinde
daha sık olması gibi)
 Kapsamlarına göre benzer
dokümanların bir arada
gruplanması (Amazon yağmur
ormanları ile, Amazon.com gibi)

7
Veri Madenciliği Sihir değildir!

Veri madenciliği, veri tabanları, istatistik ve
yapay öğrenme konularının kavramlarına
dayanır ve onların tekniklerini kullanır.

8
Tarihçesi
 Veri madenciliğinin kökeni ilk sayısal bilgisayar
olan ENIAC’a kadar dayanır.
 1946 yılında geliştirilen ve bugünkü bilgisayarların
atası olan ENIAC ABD’de II.Dünya savaşı sırasında

ABD ordusu için geliştirildi.
 30 ton ağırlığa ve 170 m³ hacme sahipti.
 Yarım asırlık süre içerisinde bu devasa boyut
cebimize girer duruma geldi.

9
Tarihçesi
 ENIAC’tan günümüze kadar olan sürede bu
evrimin gerçekleşmesi kullanıcı istekleri ile
meydana geldi.
 Kullanıcıya sunulan yazılımların her geçen gün

farklı ihtiyaçlarla büyümesi sonucu, donanıma
olan ihtiyaç da doğru orantılı olarak arttı.
 Anlaşıldığı üzere bu döngünün anahtarı
kullanıcıdır.
10
Tarihçesi
 İlk zamanlar sadece karmaşık hesapları yapmaya
yarayan bilgisayarlar, kullanıcı ihtiyaçları
doğrultusunda veri depolama işlemleri için de
kullanılmaya başlandı.
 Bu sayede veri tabanları ortaya çıktı.
 Veri tabanlarının genişleme trendi içinde olması
donanımsal olarak bu verilerin tutulacakları
ortamların da genişlemesini gerektirdi.
 Veri ambarı kavramının ortaya çıkışı bu dönemlere
rastlamaktadır.
11
Tarihçesi
 Kaybedilmek istenmeyen veriler, bir ambar misali
fiziksel sürücülerde tekrar kullanılmak üzere
saklandı.
 Veri tabanları büyüdü ve buradan bilgiye ulaşmak

güçleşti.
 Bu safhada veri modelleme kavramı ortaya çıktı.
 İhtiyaçlar doğrultusunda şekillenen veri tabanları
ve veri modelleme çeşitleri hızla yaygınlaştı.
 Donanımlar da bu gelişmeye ayak uydurdu.
12
Tarihçesi
 Günümüzde milyarlarca bit veriyi ufacık
belleklerde tutmak mümkün hale gelmiştir.
 İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda
şekillendirse de bazı sorunlar da ortaya

çıkmaktadır.
 Verilerin saklanması, düzenlenmesi, organize
edilmesi sorun gibi görünmese de bu kadar çok
veri ile sonuca ulaşmak başlı başına bir sorun
haline gelmiştir.
13
Tarihçesi
 1960’lı yıllarda veri madenciliği kavram olarak
kullanılmasa da o dönemlerde bilgisayar
yardımıyla yeterince uzun bir tarama yapıldığında
istenilen verilere ulaşmanın mümkün olacağı

gerçeği kabullenildi.
 Bu işleme o dönem veri taraması (data
dredging), veri yakalaması (data fishing) gibi
isimler verildi.

14
Tarihçesi
 1990’lı yıllarda bu işleme Veri Madenciliği denildi.
 Geleneksel istatistiki yöntemler yerine, veri analizi

bilgisayar modülleri tarafından yapıldı.
 Bu tarihten itibaren Veri Madenciliği; veri tabanları ve
makine öğrenimi disiplini ile birlikte yol aldı.
 Bilgisayarların spesifik konularda kestirim
algoritmaları üretmeye yönelik inşa edilmesi ile
uygulamalı istatistik ve makine öğrenim kavramları
veri madenciliği altında bir araya getirildi.
15
http://www.misjournal.com/?p=738

16
Veri Madenciliği Kullanım Alanları
o Bankacılık: Risk analizleri ve
usulsüzlük tespiti.
o Pazarlama: Çapraz satıĢ
analizleri, müĢteri
segmentasyonu.
o Sigortacılık: MüĢteri kaybı
sebeplerinin
belirlenmesi, usulsüzlüklerin
önlenmesi.
o Telekomünikasyon: Hile
tespiti, hatların yoğunluk
o Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.
tahminleri.
o Tıp: Tıbbi teĢhis, uygun tedavi sürecinin belirlenmesi.
o Bilim ve Mühendislik: Amprik veriler üzerinde modeller
kurularak bilimsel ve teknik problemlerin çözümlenmesi.
o Endüstri: Kalite kontrol, lojistik.
17
Kredi Kartı
müşterimiz aylık
ortalama
harcaması
su kadar

Vadeli ve vadesiz
mevduatı var
otomatik ödeme?

Konut kredisi almış
Hem bireysel
hem kurumsal krize rağmen ödemesini
aksatmamış
müşterimiz

Her ay
en az
Hizmetlerimizin
5 kez uğrar
çoğunu
yeni bir iş
alıyor
kuracak

Yeni
Müşteri!

Eski müşterimiz
bankaya
4 aydır
uğramadı
inaktif

Otomatik
Daima
ödeme
Promosyon
Kuponu kullanır talimatı var

Yeni
bebekleri
oldu
Bir zamanlar
en iyi müşterimizdi
Rakibimizle çalışıyor
Ambardan Madene
Veri
Ambarı

Günlük
Veri tabanları

Veri alınır,
çevrilir,
temizlenir,
gruplanır

Standard
form

Amaç belirlenir,
veri oluĢturulur

19
Bilgi Keşfi: Farklı Alanların Bileşimi
Makine
Öğrenmesi

İstatistik

Veri
Madenciliği
ve Bilgi
Keşfi

Görüntüleme

Veritabanı
20
Bilgi Keşfi sürecinde veri madenciliği

21
Bilgi Keşfinin Aşamaları
 Uygulama alanını inceleme
 Konuyla ilgili bilgi ve uygulama amaçları
 Amaca uygun veri kümesi oluşturma: Veri seçme
 Veri ayıklama ve önişleme
 Veri azaltma ve veri dönüşümü
 incelemede gerekli boyutları (özellikleri) seçme, boyutlar
arası ilişkiyi belirleme, boyut azaltma,
 Veri madenciliği tekniği seçme
 Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
 Veri madenciliği algoritmasını seçme
 Model değerlendirme ve bilgi sunumu
 Bulunan bilginin yorumlanması
22
Veri Madenciliği Standard Süreci
Bilgi İhtiyacı
AMAÇ

Veri Kaynakları
Veri İnceleme

Veri Hazırlama

VERİ
Kullanma

Modelleme

Değerlendirme
Veri Madenciliği Süreci
 Veri Madenciliği bir yöntem değildir bir süreçtir. Bu

süreçte ana unsur süreci gerçekleştiren uygulamacıdır.
Süreçte bulunan adımlar doğru olarak yerine
getirilmediği sürece istenilen sonuca ulaşılması
mümkün değildir.

24
Veri Madenciğinin Amacı
 Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi
(ihtiyaç duyulan bilgi)

 Kampanya sırasında satış teklifini kabul etme olasılığı

yüksek olan müşterileri isabetli tespit edecek modeli
kurmak (veri madenciliğinin amacı)
 Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
 Siteden alışveriş yapan ile yapmayan uzun süre kalan
ile kalmayanı ayırt edecek faktörleri belirleyecek
modeli kurmak

25
Bilgi ihtiyacının belirlenmesi

aşamasında

 Personel
 Veri
 mevcut mu, elde edilebilir mi?

 Donanım
 verilerin depolandığı,
 analiz için verinin seçilip yerleştirileceği donanım yeterli mi?

 Yazılım
 veriye erişmek, analizini yapmak,

 raporlama ve sonuçları kullanıma sunmak için uygun mu?

26
1. Aşamada nelere dikkat edilmeli
 Fayda/maliyet analizi
 Başarı kriterinin belirlenmesi:
 ihtiyaç duyulan bilgiyi elde etme derecesi
 bu bilginin amaca ne derece hizmet ettiği
 kriter sadece modelin tahmin gücünün yüksek olması değil elde

edilen bilginin taşıdığı değer

 Modelin tahmin gücünün yanı sıra satış başarı oranı

nedir?
 Sunulan teklifler hangi oranda kabul görmüştür?

27
Veri kaynaklarının belirlenmesi
 Veriler hangi kaynaklardan elde edileceğine karar

verilmesi
 İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi

durumunda
 hangi ortamda nasıl birleştirileceğine

 aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi

28
VERİ KAYNAKLARI - Örnek
 E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri

sayısını artırmak (amaç)
 Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
VERİ KAYNAKLARI
 Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta
görüntülediklerinin vb. verilerin tutulduğu dosyalar
 Üye müşteri bilgilerinin tutulduğu dosyalar
 Alışveriş işlem verilerinin tutulduğu dosyalar

29
Verilerin incelenmesi, anlaşılması
 Veri nasıl tanımlanmış
 kodlamalar
 meta data: veri hakkındaki veriler
 Veri kalitesinin incelenmesi
 eksik veri olup olmadığına
 veri girişinin hatalı olup olmadığına
 kodlamalarda uyumsuzluk
 meta data hataları

30
Verilerin incelenmesi - kavranması
 Verinin keşfi ve hazırlanması
 Amaç: başlangıçta veriyle ilgili fikir elde etmek

 Tablolamalar Grafikler
 OLAP küpleri: Çok boyutlu tablolamalar
 Çeşitli kriterlere göre gruplandırmalar

 Satış dağılımları




Bölgeler
Ürünler veya
Şube/mağaza bazında

 Ortalamalar, toplamlar, sapmalar

31
2. Aşamada nelere dikkat edilmeli
Veri kalitesi
 Eksik veri

 Veri girişlerinde hata
 Kodlamalarda uyumsuzluk
 Meta data hataları

32
Verilerin hazırlanması
 Hangi veri alanları (değişkenler, sütunlar)
 Hangi kayıtlar (satırlar) kullanılacak

 Örnekleme
 Gözlem sayılarının fazla olması durumunda zaman kazandırır,

maliyeti azaltır
 Tabakalar; kampanyadan alanları ve almayanları kapsamak
açısından önemli

33
Verilerin temizlenmesi
 Verinin eksikliği ve veri kirliliğinin giderilmesi
 İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi
 Tahmin yöntemiyle tamamlanması
 Hatalı verilerin
 Veri girişi esnasında önlem alma
 Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok

gözüküyor

34
Yeni veriler oluşturmak
 Verileri bazı işlemler yaparak farklı bir veri setine
dönüştürmek
 logaritma
 toplam, bölüm, fark

 yeniden kodlama

 Faktör analizi ile değişkenleri daha az sayıda
boyutlara indirgemek (RFM indeksi gibi)

35
Verileri hazırlarken nelere dikkat edilmeli
 Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı
 Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı
 Eksik verilerin sistematik bir hataya yol açıp açmayacağı

kontrol edilmeli
 Birbirine eşdeğer tekrar niteliğinde olan veri alanları

ayıklanmalı
 Eklenecek yeni değişkenin verisini hazırlamak için

gereken çabaya değer mi?

36
Modelin oluşturulması
 Modelin amacı:
 Sınıflandırma
 Tahmin

 Modelleme tekniği
 Modelin varsayımlarının kontrol edilmesi

 Algoritmaların seçilmesi

 Modelin uygunluğunun test edilmesi
 İsabetli tahmin oranı

37
Sürecin ve modelin değerlendirilmesi
 Modelin bulgularının incelenmesi
 Hangi gruplara ayırmış
 Bu grupların özellikleri nelerdir

 Model kurma ve bunun için gerekli verilerin elde

edilmesi kullanıma hazırlanma sürecinin
değerlendirilmesi
 İhtiyaç duyulan bilgi gerçekten elde edilmiş mi?

38
Şu Anda!
 Elde ne var biliyorsunuz
 Modeliniz, modelleriniz, bulgularınız

 Nasıl elde ettiğinizi biliyorsunuz
 hangi verileri,
 hangi aşamalardan geçirip hazırladıktan sonra
 hangi modeli, tekniği kullanarak

39
Değerlendirme sonucu alternatifleriniz
 Modeli ve bulguları kullanmak
 Daha iyi, daha güçlü bir model kurma kararı

 Kullanmaya değer bulmamak
 Yeni bir veri madenciliği süreci başlatmak

40
Sonuçların Kullanıma Sunulması
 Sürecin son aşaması ise sonuçların kullanıma
sunulmasıdır.....
 BİLGİ

41
Veri Madenciliği Süreci

42
Veri Madencililiği Sisteminin Yapısı
Grafiksel Kullanıcı
Arayüzü
Desen
Değerlendirme

Veri Madenciliği
Motoru

Veri Filtreleme
Veri BirleĢtirme

Bilgi
Tabanı

Veritabanı veya
Veri ambarı
Sunucusu
Filtreleme
Veritabanı

Veri
Ambarı

43
Veri Madenciliği Uygulama Alanları
 Veritabanı analizi ve karar verme desteği
 Pazar araştırması


Hedef Pazar, müşteriler arası benzerliklerin
saptanması, sepet analizi, çapraz pazar incelemesi

 Risk analizi
 Kalite kontrolü, rekabet analizi, öngörü
 Sahtekarlıkların saptanması

 Diğer Uygulamalar
 Belgeler arası benzerlik (haber kümeleri, e-posta)
 Sorgulama sonuçları
44
Problemler
 Hangi promosyonu ne zaman uygulamalıyım?
 Hangi müşteri aldığı krediyi geri ödemeyebilir?
 Bir müşteriye ne kadar kredi verilebilir?

 Sahtekarlık olabilecek davranışlar hangileridir?
 Hangi müşteriler yakın zamanda kaybedilebilir?
 Hangi müşterilere promosyon yapmalıyım?
 Hangi yatırım araçlarına yatırım yapmalıyım?
45
Pazar Araştırması (1)
 Veri madenciliği uygulamaları için veri kaynağı
 Kredi kartı hareketleri, üyelik kartları, ucuzluk
kuponları, pazar anketleri
 Hedef pazarlar bulma
 Benzer özellikler gösteren müşterilerin bulunması:
benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
 Müşterilerin davranışlarında zaman içindeki değişiklik
 Tek kişilik banka hesabının ortak hesaba çevrilmesi:
evlilik
 Çapraz pazar incelemesi:
 Ürün satışları arasındaki ilişkiyi bulma
46
Pazar Araştırması (2)
 Müşteri profili
 Hangi özellikteki müşterilerin hangi ürünleri aldıkları
(demetleme veya sınıflandırma)
 Müşterilerin ihtiyaçlarını belirleme
 Farklı müşterilerin o anki ilgisine yönelik ürünü bulma
 Yeni müşterileri hangi faktörlerin etkilediğini bulma

47
Sahtekarlık İncelemesi
 Sigorta, bankacılık, telekomünikasyon alanlarında

 Geçmiş veri kullanılarak sahtekarlık yapanlar için bir

model oluşturma ve benzer davranış gösterenleri
belirleme
 Örnek:
 Araba sigortası
 Sağlık Sigortası
 Kredi kartı başvurusu

48
Risk Analizi
 Finans planlaması ve bilanço değerlendirmesi
 nakit para akışı incelemesi ve kestirimi
 talep incelemesi
 zaman serileri incelemesi
 Kaynak planlaması
 kaynakların incelenmesi ve uygun olarak dağıtılması
 Rekabet
 rakipleri ve pazar eğilimlerini takip etme
 müşterileri sınıflara ayırma ve fiyat politikası belirleme

49
Örnek Uygulamalar
 Bağıntı

“Çocuk bezi alan müşterilerin 30%’u bira da alır.”
(Basket Analysis)
 Sınıflandırma
“Genç kadınlar küçük araba satın alır; yaşlı, zengin
erkekler ise büyük, lüks araba satın alır.”
 Regresyon
Kredi skorlama (Application Scoring)

50
Örnek Uygulamalar
 Zaman içinde Sıralı Örüntüler
“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan
müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.”
(Behavioral scoring, Churning)

 Benzer Zaman Sıraları
“X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla
benzer hareket ediyor.”

51
Örnek Uygulamalar
 İstisnalar (Fark Saptanması)
“Normalden farklı davranış gösteren müşterilerim var mı?”
Fraud detection
 Döküman Madenciliği (Web Madenciliği)
“Bu arşivde (veya internet üzerinde) bu dökümana benzer
hangi dökümanlar var?”

52
Facebook
Adınız ve Soyadınız ile üye oluyorsunuz,
Arkadaşlarınızı listenize ekliyorsunuz,
Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli

konularda hazırlanmış ufak imajlar yolluyorsunuz.

http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121

53
Facebook
Süper markete gittiniz, tuvalet kağıdı, sigara

ve bir de bira aldınız, kartınızı uzattınız
kasiyer ödemeyi almak için geçirdi.
Kasa bilgisayarı son hızla bankaya ödeme
bilgilerini sorarken merkez bilgisayara
isim bilginizi yollar,

54
Facebook
 Ana bilgisayar isminiz ve satın aldığınız

ürünlerin bağlı olduğu ürün grupları ile,
facebook da yolladığınız ve aldığınız
poke`leri sıklığına göre karşılaştırır.
 Elde ettiği veriyi belirli tolerans
aralıklarında filtre eder,
 En fazla içki veya yiyecek konusunda poke
yolladığınız ve en sık iletişimde kaldığınız
arkadaşınızı bulur.
55
Facebook
 ve daha siz kasiyerin kartınızı geçirdiğini bile

algılayamadan önünüzdeki LCD ekranda en yakın
arkadaşınız Ahmet`in facebook resmi belirir,
Altında da şu yazar:
Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi
ile Efes biralarınızı yudumlar eski günlerden
konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile
sadece 2 kontör
56
Hepsiburada.com Örneği
 Hepsiburada.com’dan yapılan alışverişler ve sitede

yapılan gezintiler log’larda kayıt altına alınıyor.
 Ayrıca müşteri profiline bakılarak müşterinin nasıl bir
karaktere sahip olduğu bilgisine de ulaşılıyor.
 Satışlarını arttırmak isteyen bu portal, müşterileri
kazanmak için müşteriye özel kampanyalar
gönderiyor.
 İşte burada Veri Madenciliği kavramı ile karşı
karşıyayız.
57
 Hepsiburada.com Veri Madenciliği ile müĢterinin sitedeki

gezintilerine ve profiline uygun olarak mailler
gönderilmektedir.
 Böylece müĢteriye özel olduğu hissettirilirken; müĢterinin
siteden alıĢveriĢ yapması teĢvik edilir.
58
Size Özel Fırsatlar !!!
Sn Engin Çakır,
Öncelikle Hepsiburada.com'u tercih ettiğiniz için teĢekkür ederiz. SipariĢlerinizde bizi tercih ettiğiniz için
aĢağıdaki fırsatlar size özel tanımlanmıĢtır.(*)

Size Özel Fırsat
HAYAT ATÖLYESĠ
% 10 indirim!
SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDĠYE )
85 TL indirim!
DIGIPHONE K8800 CARBON ÇĠFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDĠYE )
% 18 indirim!
SAMSUNG MÜZĠK MASA STANDI MDS-60
% 75 indirim!
BEYAZ KAPLAN
% 10 indirim!
MobiX-Blue BLUETOOTH FCT CĠHAZI ( KOLAY KULLANIM )
% 10 indirim!
AVCININ KADERĠ
% 10 indirim!
ĠġARET
% 10 indirim!
ĠNTERAKTĠF ÇĠNCE EĞĠTĠM SETĠ (8 KĠTAP, 8 CD, 8 CD–ROM)
% 25 indirim!
MELEKLER VE ġEYTANLAR (CEP BOY)
% 10 indirim!
AÇLIK OYUNLARI
% 10 indirim!

Size özel tüm fırsatları görmek için tıklayınız.
Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriĢ yapıldığı
takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alıĢveriĢler için geçerlidir.
59
Sipariş no : 63657082

Sipariş Tarihi : 27.12.2008

Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.

#

Ürün

Adet

Gönderilen

1.

MOBILLIFE DĠJĠTAL DERGĠ
ABONELĠĞĠ (3 AY)-3 Ay

1

1

2.

GENERAL MOBILE G777 ( 1 GB
HAFIZA KARTI HEDĠYE )

1

1

Ödeme Şekli : Garanti 6 Taksit

Bekleyen

Birim Fiyat

Günün Fiyatı

İndirim

Toplam (TL )

0

0,00 TL

6,36 TL

6,36 TL

0,00 TL

0

202,45 TL

202,45 TL

0,00 TL

202,45 TL

Toplam İndirim :
Ara Toplam :

202,45 TL

KDV :

36,44 TL

Sipariş Toplamı :

Sipariş no : 68156663

6,36 TL

238,89 TL

Sipariş Tarihi : 19.01.2007

Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.

#

Ürün

1.

SAMSUNG E900 ( 512 MB HAFIZA
KARTI HEDĠYE )-Siyah

Adet

1

Gönderilen

1

Ödeme Şekli : Garanti 12 Taksit

Bekleyen

0

Birim Fiyat

496,25 TL

Günün Fiyatı

496,25 TL

İndirim

0,00 TL

Toplam (TL )

496,25 TL

Ara Toplam :

496,25 TL

KDV :

89,33 TL

Kargo Ücreti :

1,98 TL

Sipariş Toplamı :

587,56 TL

60
Sipariş no : 21577684

Sipariş Tarihi : 18.11.2006

Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.

Ödeme Şekli : HSBC 8 Taksit

Adet

1

1

0

Birim Fiyat

0,00 TL

500,40 TL

500,40 TL
90,07 TL

Sipariş Toplamı :

Sipariş no : 56932027

Bekleyen

Toplam
(TL )

KDV :

SONY DCR-HC23E VĠDEO KAMERA (MĠNĠ DV)
+ SONY ÇANTA + SONY 5 ADET DVM 60 BOġ
1. KASET HEDĠYELĠ

Gönderile
n

İndirim

Ara Toplam :

# Ürün

Günün
Fiyatı

590,47 TL

500,40 TL ######

Sipariş Tarihi : 09.05.2006

Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır.

Ödeme Şekli : Garanti 8 Taksit

Adet

Gönderile
n

Bekleyen

Birim Fiyat

Günün
Fiyatı

İndirim

Toplam
(TL )

COLD COMPRESS-2sn DE BUZ KOMPRES
1. 571142

1

1

0

0,00 TL

6,65 TL

6,65 TL

0,00 TL

2. GUARD OTOMOBĠL BRANDASI 081106-GRUP6

1

1

0

36,20 TL

36,20 TL

0,00 TL

36,20 TL

PIRANHA PC1211 2.0 MEGAPĠKSEL
AYARLANABĠLEN IġIKLI+DivX KAYIT +
3. MĠKROFONLU + 10X DĠJĠTAL ZOOM + TÜRK

1

1

0

25,27 TL

25,27 TL

0,00 TL

25,27 TL

Toplam İndirim :

6,65 TL

Ara Toplam :

61,47 TL

KDV :

11,07 TL

Sipariş Toplamı :

72,54 TL

# Ürün

61
 Müşterinin gezindiği siteler kayıt altına alınmış.
 Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş

yapmamış.
 Müşteri siteden daha önce cep telefonu satın almış.
 Müşteri teknoloji ürünlerini siteden takip ediyor.

62
Amazon.com Örneği
 Ġskandinav ülkelerinin portalı olan Jubii internet sitesi,

sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize
edebilmek için müĢteri profillerini ve davranıĢlarını belirlediler.
Sayfalar yeni müĢteri profillerine göre çalıĢmaya baĢladığında
verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve
böylece reklam verenler verdikleri reklamlar sonucunda daha
fazla ziyaretçi almaya baĢladıklarından Jubii ‘nin karı arttı.
Ziyaretçi davranıĢ modelleri Jubii’ye reklam gelirlerini artırma
yönünde imkan sağladı.

63
 Bu konuya en güzel örnek www.amazon.com ‘un
kullandığı yazılımdır. Amazon.com bu sayede
müĢterilerinin davranıĢlarını, hobilerini, isteklerini
anlıyor ve zaman zaman müĢterilerine özel ürünler

sunuyor.

64
65
66
Sistem Modelleme
x : Gözlenebilen değişkenler.
y =f (x) : f bilinmeyen ve rassal bir fonksiyon

x

f

y

67
Veri için Model Oluşturma
x

y
f

-

f*

68
Veriden Öğrenme
Verilmiş örnek kümesi X={xt,yt}t üzerinde
f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz.

E
t

yt

f * (x t )

2

69
Uygulama Tipleri
 Sınıflandırma: y in {C1, C2,…,CK}
 Regresyon: y in Re
 Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı
 Öbekleme: x ’leri benzerliğe göre gurupla

70
Örnek
birikim

OK
DEFAULT

yıllık gelir
71
Örnek Çözüm

x2 : birikim

OK
DEFAULT

2

1

x1 : yıllık gelir

KURAL: EĞER yıllık gelir> 1 VE birikim> 2
ĠSE OK DEĞĠLSE DEFAULT

72
Karar Ağaçları
x1 >

1

evet

x2 >

hayır

x1 : yıllık gelir
x2 : birikim
y = 0: DEFAULT
y = 1: OK

y=0

2

evet

hayır

y=1

y=0

73
Öbekleme

birikim

OK
DEFAULT

Tip 1

Tip 2

Tip 3

yıllık gelir
74
Veri Görselleştirme
 Görsel Analiz için veriyi daha az boyutlu (tercihen 2)

olarak çiz.
 Verinin yapısının; grupların, istisnaların gözlenmesi

75
Veri Görselleştirme
z2

Kural

Ġstisna

z1
76
Zaman Serisi Tahmini
?
zaman
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan

GeçmiĢ

Discovery of frequent episodes

ġimdi

Gelecek
77
Metodoloji
Ġlk
Standard
Form

Öğrenme
kümesi

Model 1
Model 2

Yeterince
iyi ise
kabul et
En iyiyi
seç

Model L
Deneme
kümesi
Veri azaltma:
DeğiĢken sayısı ve değer
azaltma

En iyi
model

EğitilmiĢ
modelleri
deneme kümesi
üzerinde dene ve
en baĢarılısını seç

Olası modelleri
öğrenme kümesi
üstünde eğit
78
Kestiricileri Eğitmek için Teknikler
 Parametrik Çokboyutlu İstatistik
 Bellek tabanlı (Örnek tabanlı) Modeller
 Karar Ağaçları
 Yapay Sinir Ağları

79
Sınıflandırma
 x : d-boyutlu değişkenler vektörü
 C1 , C2 ,... , CK : K sınıf
 Şüphe
 Veriden P(Ci|x) hesaplanır ve

olasılığı en yüksek sınıf k seçilir
P(Ck|x)=maxj P(Cj|x)

80
Sınıflandırma

81
Bayes Kuralı

p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı
P(Cj) : Sınıf j’nin ilk olasılığı
p(x)
: Herhangi bir örneğin x olma olasılığı
P(Cj|x) : x olan bir örneğin sınıf j’den olma
olasılığı (son olasılık)

82
İstatistiksel Yöntemler
 Sınıf dağılımları, p(x|Cj) için parametrik (Gauss)

model varsayılıyor

x

Tek boyutlu

1

p (x | C j )
Çok boyutlu

p (x | C j )

2

2

j

d

1
(2 )

)2
j
2

j

x
d /2

exp

(x

Σj

exp

1
(x
2

μ j )T Σ j 1 ( x

μj )

83
Sınıflandırıcıyı Eğitmek
 Veri {xt}t ’in ait olduğu sınıf Cj

Tek boyutlu: p(x|Cj)~N ( j,
xt

ˆj

x

t

Cj

nj

)

ˆ j )2

( xt
ˆ j2

j

ˆ
P (C j )

t

x Cj

nj

nj
n

Çok boyutlu: p(x|Cj)~Nd ( j, j)
xt
ˆ
μj

xt C j

nj

ˆ
ˆ
(xt μ j )(xt μ j )T
ˆ j2

xt C j

nj
84
Örnek: 1 Boyutlu

85
Örnek: Farklı Varyanslar

86
Örnek: Çok Sınıf

87
Örnek: 2 Boyutlu

88
Örnek: Ortak Kovaryans

89
Örnek: Farklı Kovaryanslar

90
Davranışlar ve Riskler
i:

davranış i
( i|Cj) : Sınıf Cj iken
kayıp.
i davranışının riski:

i

davranışını almanın getirdiği

R( i |x) = j ( i|Cj) P(Cj |x)
En az riskli davranışı seç:
R(

k |x

) = mini R(

i |x

)
91
Regresyon (Fonksiyon Yakınsama)

92
Regresyon

yt

f (x t | )

gürültü. Doğrusal regresyonda parametreler w,w0

f (x t | w ,w 0 ) wx t

E (w ,w 0 )

(y

t

wx

w0
t

t

E

E
w

E
0,
w0

w 0)

2

0

w
93
Doğrusal Regresyon

94
Yüksek Dereceli Regresyon
 Örneğin, ikinci dereceden
t

f (x | w 2 ,w 1 ,w 0 ) w 2 x
E (w 2 ,w 1 ,w 0 )

(y
t

t

t2

w 2x

w 1x
t2

t

w 1x t

w0
w 0 )2

95
Yüksek Dereceli Regresyon

96
Çok Değişkenli Doğrusal Regresyon
(Scoring)
 d değişken sayısı
t

t

t

f (x 1 , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d )
t

w 1x 1

w 2x 2

t

 wd xd

t

w0

wT x

E (w 0 ,w 1 ,w 2 ,  ,w d )
y
t

t

t
1

t

t

f (x , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d )

2

97
Özellik Seçme
 Özellikler Altkümesi Seçimi

İleriye veya Geriye doğru seçim
 Doğrusal İzdüşüm
Temel Bileşenler Analizi (PCA)
Doğrusal Ayırıcı Analizi (LDA)

98
Sıralı Altküme Seçimi
Ġleriye Doğru Seçim

(x1)

(x2)

(x 1 x 3 )

(x3)

(x4)

(x2 x3)

(x1 x2 x3)

(x 3 x 4 )

(x2 x3 x4 )

Geriye Doğru Seçim

(x 1 x 2 x 3 x 4 )
(x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4)
(x2 x4) (x1 x4) (x1 x2)

99
Temel Bileşenler Analizi (PCA)
x2

z2

z2

z1

x1

z1

BeyazlaĢtırma

100
Doğrusal Ayırıcı Analizi (LDA)
x2

z1

z1
x1

101
Bellek Tabanlı Yöntemler
 Örnek tabanlı karar verme
 En yakın komşu algoritması
 Bilinen geçmiş örnekleri bir liste içinde saklayıp

buradan ara değerleme ile çıktı hesaplanır.

102
En Yakın Komşu
x2

x1

103
Yerel Regresyon
y

x
Uzmanların BirleĢimi

104
Eksik Veri
 Eksik veri olan kayıtları çıkar.
 Ortalama ile doldur.
 Diğer değişkenler cinsinden regresyon ile doldur.

105
Karar Ağaçlarının Eğitilmesi
x1 >

x2

1

evet

x2 >

hayır

2

evet

hayır

y=1

y=0

y=0

2

x1
1

106
Düzensizliğin Ölçülmesi
x2

x2

x1

x1
7
0

1
9

8
5

0
4
107
Entropi
e

n left
n left
log
n
n

n right
n right
log
n
n

108
Yapay Sinir Ağları
x0=+1

x1
x2

w1
w2

g

wd
xd

y

w0
y

g (x 1w 1 x 2w 2  w 0 )
g ( wT x)

Regresyon: Öz
Sınıflandırma: Sigmoid (0/1)

109
Yapay Sinir Ağının Eğitilmesi
 d değişken

o

g ( wT x )

g

d
i 0

Öğrenme kümesi:

wixi

X

x ,y
t

t

X üzerindeki hatayı en aza indiren w ’yi bul
2

E (w | X )

y
t X

t

o

t 2

yt
t X

g
i

wixi
110
Doğrusal Olmayan En İyileme
E

Wi
wi

E
wi

Eğim iniĢ:
Tekrarlı öğrenme
öğrenme hızı

111
Sınıflandırma için Yapay Sinir Ağları
K tane sınıf için
oj , j=1,..,K çıktı
Her oj , P (Cj|x)’yi kestirir
oj

sigmoid ( wTj x )
1

1
exp( wT x )
j

112
Çok Sınıflı Doğrusal Yapay Sinir Ağı
o2

o1

oK

wKd
x0=+1

o

t
j

x1

xd

x2
T
j

t

g (w x )

g

d
i 0

w ji x

t
i

113
Tekrarlı Öğrenme
X

xt , yt

E (w | X )

y
t

o tj

j

t
j

o

t 2
j

g ( wTj x t )

w ji

Doğrusal
Doğrusal
olmayan

E
w ji

E
oj

oj
w ji

t

y tj

o tj g ' ( )x i

w ji

y tj

o tj x i

w ji

y tj

o tj o tj (1 o tj )x i
114
Doğrusal Olmayan Sınıflandırma

Doğrusal ayırılabilir

Doğrusal ayırılamaz;
doğrusal olmayan bir
ayırıcı gerekir.

115
Çok Katmanlı Yapay Sinir Ağı (MLP)
o2

o1

oK

tKH

o
h

h2

h1

hH

h0=+1
x0=+1

x1

x2

t
j

t
p

g

H
p 0

t
t jp h p

sigmoid

d
i 0

w pi x it

wKd
xd
116
Olasılık Ağları

Dyspnoea:
Nefes Darlığı

p ( ) 0.1
p ( | ) 0.05, p ( | )

0.1,...
117
Modelleri Değerlendirme
1.
2.

M ’nin gelecekteki gerçek veri üzerindeki başarısını
nasıl ölçebiliriz?
M1 , M2 , ..., ML arasında en iyisi hangi modeldir?

118
Çapraz Geçerleme
1

1

2

3

2

k-1 k

3

k-1

k

k kere tekrar et ve ortalama al

119
Modelleri Birleştirme: Neden?
Ġlk
Standard
Form

Öğrenme
kümesi

Model 1
Model 2

En iyiyi
seç

En iyi
model

Model L
Geçerleme
kümesi

120
Modelleri Birleştirme : Nasıl?
Ġlk
Standard
Form

Öğrenme
kümesi

Model 1
Model 2

Oylama

Model L
Geçerleme
kümesi

121
Kredi Skor Hesabı (Credit Scoring)
 Başvuru (application) ve davranış (behavioral) skor

hesabı
 İstatistiksel bir model olarak skorkartı
 İyi ve kötü risk müşteriler
 Alanların doğrusal toplamı:
Kredi kartı var mı? Evet: +50
Hayır: –20

122
Kredi Skor Hesabında Kullanılan
Alanlar
 İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl

 Ev durumu: Sahip, kiracı, diğer
 Postakodu: Kodlanmış
 Telefon: Evet, hayır
 Yıllık gelir: Kodlanmış
 Kredi kartı: Evet, hayır
 Yaş: 18-25, 26-40, 41-55, 55+ yıl
 Meslek: Memur, işçi, serbest, işsiz, ...
 Medeni hali: Evli, bekar, diğer
 Bankanın müşterisi olduğu zaman: yıl
 Çalıştığı kurumda çalışma zamanı: yıl

123
Kredi Skor Hesabının Yararları
 Daha doğru karar vermeyi sağlar.
 Skorkartı standardizasyon ve nesnel karar getirir.
 Hızlı ve ucuzdur.
 Kullanılan tek skorkartının üzerinde kurumun kontrolü

vardır.
 Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde
hesaplanabilir.

124
Sepet Analizi (Basket Analysis)
 X ve Y malları arasındaki ilişki
 X, Y: 0/1

Destek (Support):
P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı /
Toplam müşteri sayısı
Güven (Confidence):
P(X|Y)=P(X ve Y)/P(Y) =
X ve Y mallarını satın almış müşteri sayısı / Y malını satın
almış müşteri sayısı

125
Sepet Analizi
 X, Y beğeni değerleri
 Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))
 Cov(X,Y)=E[(X-mX) (Y-mY)]

126
Sonuçlar: Verinin Önemi
 Amaç, büyük miktardaki ham veriden değerli bilginin

çıkarılmasıdır.
 Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi
öncelikle verinin kalitesine bağlıdır.
 Veri madenciliği simya değildir; taşı altına döndüremeyiz.

127
Sonuçlar: Uzmanın Önemi
 Veri madenciliği, uygulama alanındaki uzmanların ve

bilgisayarın ortak çalışmasıdır.
 Uygulama ile ilgili ve yararlı olabilecek her tür bilginin
(simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme
verilmesi gerekir.
 Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi
gerekir.

128
Sonuçlar: Sabrın Önemi
 Veri madenciliği tek aşamalı bir çalışma değildir;

tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.
 Veri madenciliği uzun bir çalışma olabilir. Büyük
beklentiler büyük hayal kırıklıklarına neden olur.

129
Tekrar: Madencilik için Gerekenler


Çok miktarda kaliteli veri

İlgili ve bilgili uzmanlar:
1. Uygulama alanı
2. Veri Tabanları (Veri Ambarcılığı)
3. İstatistik ve Yapay Öğrenme

Zaman ve sabır

130
TEŞEKKÜRLER
Engin ÇAKIR

131

Contenu connexe

Tendances

Predicting Flights with Azure Databricks
Predicting Flights with Azure DatabricksPredicting Flights with Azure Databricks
Predicting Flights with Azure DatabricksSarah Dutkiewicz
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
 
Google BigQuery Best Practices
Google BigQuery Best PracticesGoogle BigQuery Best Practices
Google BigQuery Best PracticesMatillion
 
Data Quality With or Without Apache Spark and Its Ecosystem
Data Quality With or Without Apache Spark and Its EcosystemData Quality With or Without Apache Spark and Its Ecosystem
Data Quality With or Without Apache Spark and Its EcosystemDatabricks
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - EinführungAndreas Finke
 
Module 2 - Datalake
Module 2 - DatalakeModule 2 - Datalake
Module 2 - DatalakeLam Le
 
Delivering Data Democratization in the Cloud with Snowflake
Delivering Data Democratization in the Cloud with SnowflakeDelivering Data Democratization in the Cloud with Snowflake
Delivering Data Democratization in the Cloud with SnowflakeKent Graziano
 
Relational vs Non Relational Databases
Relational vs Non Relational DatabasesRelational vs Non Relational Databases
Relational vs Non Relational DatabasesAngelica Lo Duca
 
Phar Data Platform: From the Lakehouse Paradigm to the Reality
Phar Data Platform: From the Lakehouse Paradigm to the RealityPhar Data Platform: From the Lakehouse Paradigm to the Reality
Phar Data Platform: From the Lakehouse Paradigm to the RealityDatabricks
 
Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)James Serra
 
You might be paying too much for BigQuery
You might be paying too much for BigQueryYou might be paying too much for BigQuery
You might be paying too much for BigQueryRyuji Tamagawa
 
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache
Using Apache Arrow, Calcite, and Parquet to Build a Relational CacheUsing Apache Arrow, Calcite, and Parquet to Build a Relational Cache
Using Apache Arrow, Calcite, and Parquet to Build a Relational CacheDremio Corporation
 
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...Databricks
 
BigQuery best practices and recommendations to reduce costs with BI Engine, S...
BigQuery best practices and recommendations to reduce costs with BI Engine, S...BigQuery best practices and recommendations to reduce costs with BI Engine, S...
BigQuery best practices and recommendations to reduce costs with BI Engine, S...Márton Kodok
 
DAX and Power BI Training - 001 Overview
DAX and Power BI Training -  001 OverviewDAX and Power BI Training -  001 Overview
DAX and Power BI Training - 001 OverviewWill Harvey
 
Data platform architecture
Data platform architectureData platform architecture
Data platform architectureSudheer Kondla
 
Introduction to Hadoop
Introduction to HadoopIntroduction to Hadoop
Introduction to Hadoopjoelcrabb
 
bigquery.pptx
bigquery.pptxbigquery.pptx
bigquery.pptxHarissh16
 

Tendances (20)

Predicting Flights with Azure Databricks
Predicting Flights with Azure DatabricksPredicting Flights with Azure Databricks
Predicting Flights with Azure Databricks
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
 
Google BigQuery Best Practices
Google BigQuery Best PracticesGoogle BigQuery Best Practices
Google BigQuery Best Practices
 
Data Quality With or Without Apache Spark and Its Ecosystem
Data Quality With or Without Apache Spark and Its EcosystemData Quality With or Without Apache Spark and Its Ecosystem
Data Quality With or Without Apache Spark and Its Ecosystem
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - Einführung
 
Module 2 - Datalake
Module 2 - DatalakeModule 2 - Datalake
Module 2 - Datalake
 
Delivering Data Democratization in the Cloud with Snowflake
Delivering Data Democratization in the Cloud with SnowflakeDelivering Data Democratization in the Cloud with Snowflake
Delivering Data Democratization in the Cloud with Snowflake
 
Relational vs Non Relational Databases
Relational vs Non Relational DatabasesRelational vs Non Relational Databases
Relational vs Non Relational Databases
 
Phar Data Platform: From the Lakehouse Paradigm to the Reality
Phar Data Platform: From the Lakehouse Paradigm to the RealityPhar Data Platform: From the Lakehouse Paradigm to the Reality
Phar Data Platform: From the Lakehouse Paradigm to the Reality
 
Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)
 
You might be paying too much for BigQuery
You might be paying too much for BigQueryYou might be paying too much for BigQuery
You might be paying too much for BigQuery
 
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache
Using Apache Arrow, Calcite, and Parquet to Build a Relational CacheUsing Apache Arrow, Calcite, and Parquet to Build a Relational Cache
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache
 
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...
Hudi: Large-Scale, Near Real-Time Pipelines at Uber with Nishith Agarwal and ...
 
Mongo db intro.pptx
Mongo db intro.pptxMongo db intro.pptx
Mongo db intro.pptx
 
BigQuery best practices and recommendations to reduce costs with BI Engine, S...
BigQuery best practices and recommendations to reduce costs with BI Engine, S...BigQuery best practices and recommendations to reduce costs with BI Engine, S...
BigQuery best practices and recommendations to reduce costs with BI Engine, S...
 
DAX and Power BI Training - 001 Overview
DAX and Power BI Training -  001 OverviewDAX and Power BI Training -  001 Overview
DAX and Power BI Training - 001 Overview
 
Data platform architecture
Data platform architectureData platform architecture
Data platform architecture
 
Introduction to Hadoop
Introduction to HadoopIntroduction to Hadoop
Introduction to Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
bigquery.pptx
bigquery.pptxbigquery.pptx
bigquery.pptx
 

En vedette

VMTeknikleri
VMTeknikleriVMTeknikleri
VMTekniklerimrrock34
 
Avusralya Yerel Yönetimlerinde Inovasyon Stratejileri
Avusralya Yerel Yönetimlerinde Inovasyon StratejileriAvusralya Yerel Yönetimlerinde Inovasyon Stratejileri
Avusralya Yerel Yönetimlerinde Inovasyon StratejileriEngin Çakir
 
TEBA Neden iflas etti? Balık kılçığı modeli...
TEBA Neden iflas etti? Balık kılçığı modeli...TEBA Neden iflas etti? Balık kılçığı modeli...
TEBA Neden iflas etti? Balık kılçığı modeli...Engin Çakir
 
Makale KarşıLaşTıRması
Makale KarşıLaşTıRmasıMakale KarşıLaşTıRması
Makale KarşıLaşTıRmasıEngin Çakir
 
Altı Sigma Ya da Tasarımda Altı Sigma
Altı Sigma Ya da Tasarımda Altı SigmaAltı Sigma Ya da Tasarımda Altı Sigma
Altı Sigma Ya da Tasarımda Altı SigmaEngin Çakir
 
SimüLasyon öDevi
SimüLasyon öDeviSimüLasyon öDevi
SimüLasyon öDeviEngin Çakir
 
Strateji Haritalari
Strateji HaritalariStrateji Haritalari
Strateji HaritalariEngin Çakir
 
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaKöken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaEngin Çakir
 
Televizyon Reklamcılığı ve Çocuklar
Televizyon Reklamcılığı ve ÇocuklarTelevizyon Reklamcılığı ve Çocuklar
Televizyon Reklamcılığı ve ÇocuklarEngin Çakir
 
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaKöken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaEngin Çakir
 
Güvenirlik Analizi
Güvenirlik AnaliziGüvenirlik Analizi
Güvenirlik AnaliziEngin Çakir
 
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileri
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileriParlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileri
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileriBurak Günbal
 
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu Sistemi
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu SistemiKoruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu Sistemi
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu SistemiZeki DİNÇER
 

En vedette (20)

Veritabanları
VeritabanlarıVeritabanları
Veritabanları
 
Gereksinim Analizi Dokümanı Hazırlama
Gereksinim Analizi Dokümanı HazırlamaGereksinim Analizi Dokümanı Hazırlama
Gereksinim Analizi Dokümanı Hazırlama
 
VMTeknikleri
VMTeknikleriVMTeknikleri
VMTeknikleri
 
Avusralya Yerel Yönetimlerinde Inovasyon Stratejileri
Avusralya Yerel Yönetimlerinde Inovasyon StratejileriAvusralya Yerel Yönetimlerinde Inovasyon Stratejileri
Avusralya Yerel Yönetimlerinde Inovasyon Stratejileri
 
TEBA Neden iflas etti? Balık kılçığı modeli...
TEBA Neden iflas etti? Balık kılçığı modeli...TEBA Neden iflas etti? Balık kılçığı modeli...
TEBA Neden iflas etti? Balık kılçığı modeli...
 
Integral
IntegralIntegral
Integral
 
Makale KarşıLaşTıRması
Makale KarşıLaşTıRmasıMakale KarşıLaşTıRması
Makale KarşıLaşTıRması
 
Altı Sigma Ya da Tasarımda Altı Sigma
Altı Sigma Ya da Tasarımda Altı SigmaAltı Sigma Ya da Tasarımda Altı Sigma
Altı Sigma Ya da Tasarımda Altı Sigma
 
SimüLasyon öDevi
SimüLasyon öDeviSimüLasyon öDevi
SimüLasyon öDevi
 
Strateji Haritalari
Strateji HaritalariStrateji Haritalari
Strateji Haritalari
 
Simpleks Tablosu
Simpleks TablosuSimpleks Tablosu
Simpleks Tablosu
 
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaKöken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
 
Televizyon Reklamcılığı ve Çocuklar
Televizyon Reklamcılığı ve ÇocuklarTelevizyon Reklamcılığı ve Çocuklar
Televizyon Reklamcılığı ve Çocuklar
 
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir UygulamaKöken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
Köken Ülke Faktörünün Satın Alma Davranışına Etkisi: Aydın İlinde Bir Uygulama
 
Kapak
KapakKapak
Kapak
 
Güvenirlik Analizi
Güvenirlik AnaliziGüvenirlik Analizi
Güvenirlik Analizi
 
BALIK KILCIGI
BALIK KILCIGIBALIK KILCIGI
BALIK KILCIGI
 
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileri
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileriParlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileri
Parlayan yildiz perakende-sektorunun_turk_ekonomisine_etkileri
 
Avita sunum .
Avita sunum .Avita sunum .
Avita sunum .
 
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu Sistemi
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu SistemiKoruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu Sistemi
Koruyan, Korunmuş Değerli Veri İş Modeli (Yalın Girişimli) İnovasyonu Sistemi
 

Similaire à Data Mining Presentation

Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Musa BEKTAŞ
 
Big Data / Büyük Veri Nedir?
Big Data / Büyük Veri Nedir?Big Data / Büyük Veri Nedir?
Big Data / Büyük Veri Nedir?Veli Bahçeci
 
Ağ Ekonomisinde Yeni Ticaret Yolu
Ağ Ekonomisinde Yeni Ticaret YoluAğ Ekonomisinde Yeni Ticaret Yolu
Ağ Ekonomisinde Yeni Ticaret YoluMelih Torlak
 
Knowledge Management
Knowledge ManagementKnowledge Management
Knowledge ManagementGamze Saba
 
Managment Information Systems.pptx
Managment Information Systems.pptxManagment Information Systems.pptx
Managment Information Systems.pptxAliMurat5
 
Altdata startup scoring_ku-incubation
Altdata  startup scoring_ku-incubationAltdata  startup scoring_ku-incubation
Altdata startup scoring_ku-incubationAltan Atabarut, MSc.
 
Altdata biggsea txn analytics 20150719
Altdata  biggsea txn analytics 20150719Altdata  biggsea txn analytics 20150719
Altdata biggsea txn analytics 20150719Altan Atabarut, MSc.
 
Değere dönüştürülebilen veri i̇le para basmak
Değere dönüştürülebilen veri i̇le para basmak Değere dönüştürülebilen veri i̇le para basmak
Değere dönüştürülebilen veri i̇le para basmak ABDULLAH SEVİMLİ
 
B2c sunum
B2c sunumB2c sunum
B2c sunumwaften
 
Büyük veri(bigdata)
Büyük veri(bigdata)Büyük veri(bigdata)
Büyük veri(bigdata)Hülya Soylu
 
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupMWebrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupMWebrazzi
 
Veri Madenciliği (Data Mining)
Veri Madenciliği (Data Mining)Veri Madenciliği (Data Mining)
Veri Madenciliği (Data Mining)Murat Azimli
 
Yonetim bilgi sistemleri
Yonetim bilgi sistemleriYonetim bilgi sistemleri
Yonetim bilgi sistemlerihakanakdag
 
Yonetim bilgi sistemleri
Yonetim bilgi sistemleriYonetim bilgi sistemleri
Yonetim bilgi sistemleriraketot
 

Similaire à Data Mining Presentation (20)

Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇
 
Big Data / Büyük Veri Nedir?
Big Data / Büyük Veri Nedir?Big Data / Büyük Veri Nedir?
Big Data / Büyük Veri Nedir?
 
Ağ Ekonomisinde Yeni Ticaret Yolu
Ağ Ekonomisinde Yeni Ticaret YoluAğ Ekonomisinde Yeni Ticaret Yolu
Ağ Ekonomisinde Yeni Ticaret Yolu
 
Knowledge Management
Knowledge ManagementKnowledge Management
Knowledge Management
 
Managment Information Systems.pptx
Managment Information Systems.pptxManagment Information Systems.pptx
Managment Information Systems.pptx
 
Altdata startup scoring_ku-incubation
Altdata  startup scoring_ku-incubationAltdata  startup scoring_ku-incubation
Altdata startup scoring_ku-incubation
 
Altdata biggsea txn analytics 20150719
Altdata  biggsea txn analytics 20150719Altdata  biggsea txn analytics 20150719
Altdata biggsea txn analytics 20150719
 
Veri madenciliği
Veri madenciliğiVeri madenciliği
Veri madenciliği
 
Değere dönüştürülebilen veri i̇le para basmak
Değere dönüştürülebilen veri i̇le para basmak Değere dönüştürülebilen veri i̇le para basmak
Değere dönüştürülebilen veri i̇le para basmak
 
B2c sunum
B2c sunumB2c sunum
B2c sunum
 
Büyük veri(bigdata)
Büyük veri(bigdata)Büyük veri(bigdata)
Büyük veri(bigdata)
 
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupMWebrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
 
Databases Marketing
Databases MarketingDatabases Marketing
Databases Marketing
 
Ybs
YbsYbs
Ybs
 
Altdata garanti pos analytics
Altdata garanti pos analyticsAltdata garanti pos analytics
Altdata garanti pos analytics
 
e-ticaret
e-ticarete-ticaret
e-ticaret
 
Veri Madenciliği (Data Mining)
Veri Madenciliği (Data Mining)Veri Madenciliği (Data Mining)
Veri Madenciliği (Data Mining)
 
Yonetim bilgi sistemleri
Yonetim bilgi sistemleriYonetim bilgi sistemleri
Yonetim bilgi sistemleri
 
Yonetim bilgi sistemleri
Yonetim bilgi sistemleriYonetim bilgi sistemleri
Yonetim bilgi sistemleri
 
E ti̇caret
E ti̇caretE ti̇caret
E ti̇caret
 

Plus de Engin Çakir

Plus de Engin Çakir (10)

Sosyal Medya Reklamcılığı
Sosyal Medya ReklamcılığıSosyal Medya Reklamcılığı
Sosyal Medya Reklamcılığı
 
Yalın Altı Sigma ve Bir Uygulama
Yalın Altı Sigma ve Bir UygulamaYalın Altı Sigma ve Bir Uygulama
Yalın Altı Sigma ve Bir Uygulama
 
Karar Teoremi̇
Karar Teoremi̇Karar Teoremi̇
Karar Teoremi̇
 
Ahp & House Of Quality
Ahp & House Of QualityAhp & House Of Quality
Ahp & House Of Quality
 
Iş Stratejisi
Iş StratejisiIş Stratejisi
Iş Stratejisi
 
Inovasyon Sunusu
Inovasyon SunusuInovasyon Sunusu
Inovasyon Sunusu
 
5 - S
5 - S5 - S
5 - S
 
MRP MRPII ERP
MRP MRPII ERPMRP MRPII ERP
MRP MRPII ERP
 
Hedef Programlama
Hedef ProgramlamaHedef Programlama
Hedef Programlama
 
BileşIk Faiz
BileşIk FaizBileşIk Faiz
BileşIk Faiz
 

Data Mining Presentation

  • 2. Bilginin Değeri / Verinin Önemi  Yeni ekonomide bilgi, üretimin faktörlerinden birisi  Internet küreselleşmeyi körüklüyor  Rekabet artıyor  Kar marjları düşüyor  Müşteriyi memnun etmek her geçen gün zorlaşıyor  Tüketiciler, müşteriler bilgiyle donanıyor  Sadakatleri azalıyor/azalabiliyor 2
  • 3. Değişen koşullarla başa çıkmanın çaresi:  Bilgi ile değer yaratmak  Verileri toplamak, bilgi üretme amacına yönelik hazırlamak  Analiz etmek  Elde edilen bilgileri eyleme yönelik olarak kullanmak 3
  • 4. Dijitalleşmenin etkisi  Büyük miktarlarda verinin çok hızlı bir biçimde  toplanabilmesi  depolanabilmesi ve  analizinin mümkün olması  Bilgiye dönüştürülen verinin  doğru ve zamanında karar alabilmesi için onların kullanıcılara sunulması 4
  • 5. Veri Madenciliği Nedir?  Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. 5
  • 6. Veri Madenciliği Nedir?  Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur. 6
  • 7. Veri Madenciliği Nedir, Ne Değildir?  Ne değildir?  Nedir?  Bazı isimlere bazı yörelerde  telefon rehberinde bir telefona ait numaranın aranması  “Amazon” hakkında bilgi için arama motorunda sorgulama yapmak diğerlerinden daha yaygın olarak rastlama durumu (O’Brien, O’Rurke, O’Reilly… gibi isimlerin Boston bölgesinde daha sık olması gibi)  Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yağmur ormanları ile, Amazon.com gibi) 7
  • 8. Veri Madenciliği Sihir değildir! Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. 8
  • 9. Tarihçesi  Veri madenciliğinin kökeni ilk sayısal bilgisayar olan ENIAC’a kadar dayanır.  1946 yılında geliştirilen ve bugünkü bilgisayarların atası olan ENIAC ABD’de II.Dünya savaşı sırasında ABD ordusu için geliştirildi.  30 ton ağırlığa ve 170 m³ hacme sahipti.  Yarım asırlık süre içerisinde bu devasa boyut cebimize girer duruma geldi. 9
  • 10. Tarihçesi  ENIAC’tan günümüze kadar olan sürede bu evrimin gerçekleşmesi kullanıcı istekleri ile meydana geldi.  Kullanıcıya sunulan yazılımların her geçen gün farklı ihtiyaçlarla büyümesi sonucu, donanıma olan ihtiyaç da doğru orantılı olarak arttı.  Anlaşıldığı üzere bu döngünün anahtarı kullanıcıdır. 10
  • 11. Tarihçesi  İlk zamanlar sadece karmaşık hesapları yapmaya yarayan bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı.  Bu sayede veri tabanları ortaya çıktı.  Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi.  Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır. 11
  • 12. Tarihçesi  Kaybedilmek istenmeyen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklandı.  Veri tabanları büyüdü ve buradan bilgiye ulaşmak güçleşti.  Bu safhada veri modelleme kavramı ortaya çıktı.  İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaştı.  Donanımlar da bu gelişmeye ayak uydurdu. 12
  • 13. Tarihçesi  Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.  İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda şekillendirse de bazı sorunlar da ortaya çıkmaktadır.  Verilerin saklanması, düzenlenmesi, organize edilmesi sorun gibi görünmese de bu kadar çok veri ile sonuca ulaşmak başlı başına bir sorun haline gelmiştir. 13
  • 14. Tarihçesi  1960’lı yıllarda veri madenciliği kavram olarak kullanılmasa da o dönemlerde bilgisayar yardımıyla yeterince uzun bir tarama yapıldığında istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi.  Bu işleme o dönem veri taraması (data dredging), veri yakalaması (data fishing) gibi isimler verildi. 14
  • 15. Tarihçesi  1990’lı yıllarda bu işleme Veri Madenciliği denildi.  Geleneksel istatistiki yöntemler yerine, veri analizi bilgisayar modülleri tarafından yapıldı.  Bu tarihten itibaren Veri Madenciliği; veri tabanları ve makine öğrenimi disiplini ile birlikte yol aldı.  Bilgisayarların spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edilmesi ile uygulamalı istatistik ve makine öğrenim kavramları veri madenciliği altında bir araya getirildi. 15
  • 17. Veri Madenciliği Kullanım Alanları o Bankacılık: Risk analizleri ve usulsüzlük tespiti. o Pazarlama: Çapraz satıĢ analizleri, müĢteri segmentasyonu. o Sigortacılık: MüĢteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi. o Telekomünikasyon: Hile tespiti, hatların yoğunluk o Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri. tahminleri. o Tıp: Tıbbi teĢhis, uygun tedavi sürecinin belirlenmesi. o Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi. o Endüstri: Kalite kontrol, lojistik. 17
  • 18. Kredi Kartı müşterimiz aylık ortalama harcaması su kadar Vadeli ve vadesiz mevduatı var otomatik ödeme? Konut kredisi almış Hem bireysel hem kurumsal krize rağmen ödemesini aksatmamış müşterimiz Her ay en az Hizmetlerimizin 5 kez uğrar çoğunu yeni bir iş alıyor kuracak Yeni Müşteri! Eski müşterimiz bankaya 4 aydır uğramadı inaktif Otomatik Daima ödeme Promosyon Kuponu kullanır talimatı var Yeni bebekleri oldu Bir zamanlar en iyi müşterimizdi Rakibimizle çalışıyor
  • 19. Ambardan Madene Veri Ambarı Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, gruplanır Standard form Amaç belirlenir, veri oluĢturulur 19
  • 20. Bilgi Keşfi: Farklı Alanların Bileşimi Makine Öğrenmesi İstatistik Veri Madenciliği ve Bilgi Keşfi Görüntüleme Veritabanı 20
  • 21. Bilgi Keşfi sürecinde veri madenciliği 21
  • 22. Bilgi Keşfinin Aşamaları  Uygulama alanını inceleme  Konuyla ilgili bilgi ve uygulama amaçları  Amaca uygun veri kümesi oluşturma: Veri seçme  Veri ayıklama ve önişleme  Veri azaltma ve veri dönüşümü  incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,  Veri madenciliği tekniği seçme  Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme  Veri madenciliği algoritmasını seçme  Model değerlendirme ve bilgi sunumu  Bulunan bilginin yorumlanması 22
  • 23. Veri Madenciliği Standard Süreci Bilgi İhtiyacı AMAÇ Veri Kaynakları Veri İnceleme Veri Hazırlama VERİ Kullanma Modelleme Değerlendirme
  • 24. Veri Madenciliği Süreci  Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir. 24
  • 25. Veri Madenciğinin Amacı  Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi (ihtiyaç duyulan bilgi)  Kampanya sırasında satış teklifini kabul etme olasılığı yüksek olan müşterileri isabetli tespit edecek modeli kurmak (veri madenciliğinin amacı)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)  Siteden alışveriş yapan ile yapmayan uzun süre kalan ile kalmayanı ayırt edecek faktörleri belirleyecek modeli kurmak 25
  • 26. Bilgi ihtiyacının belirlenmesi aşamasında  Personel  Veri  mevcut mu, elde edilebilir mi?  Donanım  verilerin depolandığı,  analiz için verinin seçilip yerleştirileceği donanım yeterli mi?  Yazılım  veriye erişmek, analizini yapmak,  raporlama ve sonuçları kullanıma sunmak için uygun mu? 26
  • 27. 1. Aşamada nelere dikkat edilmeli  Fayda/maliyet analizi  Başarı kriterinin belirlenmesi:  ihtiyaç duyulan bilgiyi elde etme derecesi  bu bilginin amaca ne derece hizmet ettiği  kriter sadece modelin tahmin gücünün yüksek olması değil elde edilen bilginin taşıdığı değer  Modelin tahmin gücünün yanı sıra satış başarı oranı nedir?  Sunulan teklifler hangi oranda kabul görmüştür? 27
  • 28. Veri kaynaklarının belirlenmesi  Veriler hangi kaynaklardan elde edileceğine karar verilmesi  İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi durumunda  hangi ortamda nasıl birleştirileceğine  aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi 28
  • 29. VERİ KAYNAKLARI - Örnek  E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını artırmak (amaç)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi) VERİ KAYNAKLARI  Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta görüntülediklerinin vb. verilerin tutulduğu dosyalar  Üye müşteri bilgilerinin tutulduğu dosyalar  Alışveriş işlem verilerinin tutulduğu dosyalar 29
  • 30. Verilerin incelenmesi, anlaşılması  Veri nasıl tanımlanmış  kodlamalar  meta data: veri hakkındaki veriler  Veri kalitesinin incelenmesi  eksik veri olup olmadığına  veri girişinin hatalı olup olmadığına  kodlamalarda uyumsuzluk  meta data hataları 30
  • 31. Verilerin incelenmesi - kavranması  Verinin keşfi ve hazırlanması  Amaç: başlangıçta veriyle ilgili fikir elde etmek  Tablolamalar Grafikler  OLAP küpleri: Çok boyutlu tablolamalar  Çeşitli kriterlere göre gruplandırmalar  Satış dağılımları    Bölgeler Ürünler veya Şube/mağaza bazında  Ortalamalar, toplamlar, sapmalar 31
  • 32. 2. Aşamada nelere dikkat edilmeli Veri kalitesi  Eksik veri  Veri girişlerinde hata  Kodlamalarda uyumsuzluk  Meta data hataları 32
  • 33. Verilerin hazırlanması  Hangi veri alanları (değişkenler, sütunlar)  Hangi kayıtlar (satırlar) kullanılacak  Örnekleme  Gözlem sayılarının fazla olması durumunda zaman kazandırır, maliyeti azaltır  Tabakalar; kampanyadan alanları ve almayanları kapsamak açısından önemli 33
  • 34. Verilerin temizlenmesi  Verinin eksikliği ve veri kirliliğinin giderilmesi  İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi  Tahmin yöntemiyle tamamlanması  Hatalı verilerin  Veri girişi esnasında önlem alma  Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok gözüküyor 34
  • 35. Yeni veriler oluşturmak  Verileri bazı işlemler yaparak farklı bir veri setine dönüştürmek  logaritma  toplam, bölüm, fark  yeniden kodlama  Faktör analizi ile değişkenleri daha az sayıda boyutlara indirgemek (RFM indeksi gibi) 35
  • 36. Verileri hazırlarken nelere dikkat edilmeli  Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı  Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı  Eksik verilerin sistematik bir hataya yol açıp açmayacağı kontrol edilmeli  Birbirine eşdeğer tekrar niteliğinde olan veri alanları ayıklanmalı  Eklenecek yeni değişkenin verisini hazırlamak için gereken çabaya değer mi? 36
  • 37. Modelin oluşturulması  Modelin amacı:  Sınıflandırma  Tahmin  Modelleme tekniği  Modelin varsayımlarının kontrol edilmesi  Algoritmaların seçilmesi  Modelin uygunluğunun test edilmesi  İsabetli tahmin oranı 37
  • 38. Sürecin ve modelin değerlendirilmesi  Modelin bulgularının incelenmesi  Hangi gruplara ayırmış  Bu grupların özellikleri nelerdir  Model kurma ve bunun için gerekli verilerin elde edilmesi kullanıma hazırlanma sürecinin değerlendirilmesi  İhtiyaç duyulan bilgi gerçekten elde edilmiş mi? 38
  • 39. Şu Anda!  Elde ne var biliyorsunuz  Modeliniz, modelleriniz, bulgularınız  Nasıl elde ettiğinizi biliyorsunuz  hangi verileri,  hangi aşamalardan geçirip hazırladıktan sonra  hangi modeli, tekniği kullanarak 39
  • 40. Değerlendirme sonucu alternatifleriniz  Modeli ve bulguları kullanmak  Daha iyi, daha güçlü bir model kurma kararı  Kullanmaya değer bulmamak  Yeni bir veri madenciliği süreci başlatmak 40
  • 41. Sonuçların Kullanıma Sunulması  Sürecin son aşaması ise sonuçların kullanıma sunulmasıdır.....  BİLGİ 41
  • 43. Veri Madencililiği Sisteminin Yapısı Grafiksel Kullanıcı Arayüzü Desen Değerlendirme Veri Madenciliği Motoru Veri Filtreleme Veri BirleĢtirme Bilgi Tabanı Veritabanı veya Veri ambarı Sunucusu Filtreleme Veritabanı Veri Ambarı 43
  • 44. Veri Madenciliği Uygulama Alanları  Veritabanı analizi ve karar verme desteği  Pazar araştırması  Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi  Risk analizi  Kalite kontrolü, rekabet analizi, öngörü  Sahtekarlıkların saptanması  Diğer Uygulamalar  Belgeler arası benzerlik (haber kümeleri, e-posta)  Sorgulama sonuçları 44
  • 45. Problemler  Hangi promosyonu ne zaman uygulamalıyım?  Hangi müşteri aldığı krediyi geri ödemeyebilir?  Bir müşteriye ne kadar kredi verilebilir?  Sahtekarlık olabilecek davranışlar hangileridir?  Hangi müşteriler yakın zamanda kaybedilebilir?  Hangi müşterilere promosyon yapmalıyım?  Hangi yatırım araçlarına yatırım yapmalıyım? 45
  • 46. Pazar Araştırması (1)  Veri madenciliği uygulamaları için veri kaynağı  Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri  Hedef pazarlar bulma  Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları  Müşterilerin davranışlarında zaman içindeki değişiklik  Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik  Çapraz pazar incelemesi:  Ürün satışları arasındaki ilişkiyi bulma 46
  • 47. Pazar Araştırması (2)  Müşteri profili  Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma)  Müşterilerin ihtiyaçlarını belirleme  Farklı müşterilerin o anki ilgisine yönelik ürünü bulma  Yeni müşterileri hangi faktörlerin etkilediğini bulma 47
  • 48. Sahtekarlık İncelemesi  Sigorta, bankacılık, telekomünikasyon alanlarında  Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme  Örnek:  Araba sigortası  Sağlık Sigortası  Kredi kartı başvurusu 48
  • 49. Risk Analizi  Finans planlaması ve bilanço değerlendirmesi  nakit para akışı incelemesi ve kestirimi  talep incelemesi  zaman serileri incelemesi  Kaynak planlaması  kaynakların incelenmesi ve uygun olarak dağıtılması  Rekabet  rakipleri ve pazar eğilimlerini takip etme  müşterileri sınıflara ayırma ve fiyat politikası belirleme 49
  • 50. Örnek Uygulamalar  Bağıntı “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)  Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”  Regresyon Kredi skorlama (Application Scoring) 50
  • 51. Örnek Uygulamalar  Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)  Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” 51
  • 52. Örnek Uygulamalar  İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection  Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” 52
  • 53. Facebook Adınız ve Soyadınız ile üye oluyorsunuz, Arkadaşlarınızı listenize ekliyorsunuz, Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli konularda hazırlanmış ufak imajlar yolluyorsunuz. http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121 53
  • 54. Facebook Süper markete gittiniz, tuvalet kağıdı, sigara ve bir de bira aldınız, kartınızı uzattınız kasiyer ödemeyi almak için geçirdi. Kasa bilgisayarı son hızla bankaya ödeme bilgilerini sorarken merkez bilgisayara isim bilginizi yollar, 54
  • 55. Facebook  Ana bilgisayar isminiz ve satın aldığınız ürünlerin bağlı olduğu ürün grupları ile, facebook da yolladığınız ve aldığınız poke`leri sıklığına göre karşılaştırır.  Elde ettiği veriyi belirli tolerans aralıklarında filtre eder,  En fazla içki veya yiyecek konusunda poke yolladığınız ve en sık iletişimde kaldığınız arkadaşınızı bulur. 55
  • 56. Facebook  ve daha siz kasiyerin kartınızı geçirdiğini bile algılayamadan önünüzdeki LCD ekranda en yakın arkadaşınız Ahmet`in facebook resmi belirir, Altında da şu yazar: Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi ile Efes biralarınızı yudumlar eski günlerden konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile sadece 2 kontör 56
  • 57. Hepsiburada.com Örneği  Hepsiburada.com’dan yapılan alışverişler ve sitede yapılan gezintiler log’larda kayıt altına alınıyor.  Ayrıca müşteri profiline bakılarak müşterinin nasıl bir karaktere sahip olduğu bilgisine de ulaşılıyor.  Satışlarını arttırmak isteyen bu portal, müşterileri kazanmak için müşteriye özel kampanyalar gönderiyor.  İşte burada Veri Madenciliği kavramı ile karşı karşıyayız. 57
  • 58.  Hepsiburada.com Veri Madenciliği ile müĢterinin sitedeki gezintilerine ve profiline uygun olarak mailler gönderilmektedir.  Böylece müĢteriye özel olduğu hissettirilirken; müĢterinin siteden alıĢveriĢ yapması teĢvik edilir. 58
  • 59. Size Özel Fırsatlar !!! Sn Engin Çakır, Öncelikle Hepsiburada.com'u tercih ettiğiniz için teĢekkür ederiz. SipariĢlerinizde bizi tercih ettiğiniz için aĢağıdaki fırsatlar size özel tanımlanmıĢtır.(*) Size Özel Fırsat HAYAT ATÖLYESĠ % 10 indirim! SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDĠYE ) 85 TL indirim! DIGIPHONE K8800 CARBON ÇĠFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDĠYE ) % 18 indirim! SAMSUNG MÜZĠK MASA STANDI MDS-60 % 75 indirim! BEYAZ KAPLAN % 10 indirim! MobiX-Blue BLUETOOTH FCT CĠHAZI ( KOLAY KULLANIM ) % 10 indirim! AVCININ KADERĠ % 10 indirim! ĠġARET % 10 indirim! ĠNTERAKTĠF ÇĠNCE EĞĠTĠM SETĠ (8 KĠTAP, 8 CD, 8 CD–ROM) % 25 indirim! MELEKLER VE ġEYTANLAR (CEP BOY) % 10 indirim! AÇLIK OYUNLARI % 10 indirim! Size özel tüm fırsatları görmek için tıklayınız. Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriĢ yapıldığı takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alıĢveriĢler için geçerlidir. 59
  • 60. Sipariş no : 63657082 Sipariş Tarihi : 27.12.2008 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün Adet Gönderilen 1. MOBILLIFE DĠJĠTAL DERGĠ ABONELĠĞĠ (3 AY)-3 Ay 1 1 2. GENERAL MOBILE G777 ( 1 GB HAFIZA KARTI HEDĠYE ) 1 1 Ödeme Şekli : Garanti 6 Taksit Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 0 0,00 TL 6,36 TL 6,36 TL 0,00 TL 0 202,45 TL 202,45 TL 0,00 TL 202,45 TL Toplam İndirim : Ara Toplam : 202,45 TL KDV : 36,44 TL Sipariş Toplamı : Sipariş no : 68156663 6,36 TL 238,89 TL Sipariş Tarihi : 19.01.2007 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün 1. SAMSUNG E900 ( 512 MB HAFIZA KARTI HEDĠYE )-Siyah Adet 1 Gönderilen 1 Ödeme Şekli : Garanti 12 Taksit Bekleyen 0 Birim Fiyat 496,25 TL Günün Fiyatı 496,25 TL İndirim 0,00 TL Toplam (TL ) 496,25 TL Ara Toplam : 496,25 TL KDV : 89,33 TL Kargo Ücreti : 1,98 TL Sipariş Toplamı : 587,56 TL 60
  • 61. Sipariş no : 21577684 Sipariş Tarihi : 18.11.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : HSBC 8 Taksit Adet 1 1 0 Birim Fiyat 0,00 TL 500,40 TL 500,40 TL 90,07 TL Sipariş Toplamı : Sipariş no : 56932027 Bekleyen Toplam (TL ) KDV : SONY DCR-HC23E VĠDEO KAMERA (MĠNĠ DV) + SONY ÇANTA + SONY 5 ADET DVM 60 BOġ 1. KASET HEDĠYELĠ Gönderile n İndirim Ara Toplam : # Ürün Günün Fiyatı 590,47 TL 500,40 TL ###### Sipariş Tarihi : 09.05.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 8 Taksit Adet Gönderile n Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) COLD COMPRESS-2sn DE BUZ KOMPRES 1. 571142 1 1 0 0,00 TL 6,65 TL 6,65 TL 0,00 TL 2. GUARD OTOMOBĠL BRANDASI 081106-GRUP6 1 1 0 36,20 TL 36,20 TL 0,00 TL 36,20 TL PIRANHA PC1211 2.0 MEGAPĠKSEL AYARLANABĠLEN IġIKLI+DivX KAYIT + 3. MĠKROFONLU + 10X DĠJĠTAL ZOOM + TÜRK 1 1 0 25,27 TL 25,27 TL 0,00 TL 25,27 TL Toplam İndirim : 6,65 TL Ara Toplam : 61,47 TL KDV : 11,07 TL Sipariş Toplamı : 72,54 TL # Ürün 61
  • 62.  Müşterinin gezindiği siteler kayıt altına alınmış.  Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş yapmamış.  Müşteri siteden daha önce cep telefonu satın almış.  Müşteri teknoloji ürünlerini siteden takip ediyor. 62
  • 63. Amazon.com Örneği  Ġskandinav ülkelerinin portalı olan Jubii internet sitesi, sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize edebilmek için müĢteri profillerini ve davranıĢlarını belirlediler. Sayfalar yeni müĢteri profillerine göre çalıĢmaya baĢladığında verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve böylece reklam verenler verdikleri reklamlar sonucunda daha fazla ziyaretçi almaya baĢladıklarından Jubii ‘nin karı arttı. Ziyaretçi davranıĢ modelleri Jubii’ye reklam gelirlerini artırma yönünde imkan sağladı. 63
  • 64.  Bu konuya en güzel örnek www.amazon.com ‘un kullandığı yazılımdır. Amazon.com bu sayede müĢterilerinin davranıĢlarını, hobilerini, isteklerini anlıyor ve zaman zaman müĢterilerine özel ürünler sunuyor. 64
  • 65. 65
  • 66. 66
  • 67. Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 67
  • 68. Veri için Model Oluşturma x y f - f* 68
  • 69. Veriden Öğrenme Verilmiş örnek kümesi X={xt,yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. E t yt f * (x t ) 2 69
  • 70. Uygulama Tipleri  Sınıflandırma: y in {C1, C2,…,CK}  Regresyon: y in Re  Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı  Öbekleme: x ’leri benzerliğe göre gurupla 70
  • 72. Örnek Çözüm x2 : birikim OK DEFAULT 2 1 x1 : yıllık gelir KURAL: EĞER yıllık gelir> 1 VE birikim> 2 ĠSE OK DEĞĠLSE DEFAULT 72
  • 73. Karar Ağaçları x1 > 1 evet x2 > hayır x1 : yıllık gelir x2 : birikim y = 0: DEFAULT y = 1: OK y=0 2 evet hayır y=1 y=0 73
  • 75. Veri Görselleştirme  Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.  Verinin yapısının; grupların, istisnaların gözlenmesi 75
  • 77. Zaman Serisi Tahmini ? zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan GeçmiĢ Discovery of frequent episodes ġimdi Gelecek 77
  • 78. Metodoloji Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: DeğiĢken sayısı ve değer azaltma En iyi model EğitilmiĢ modelleri deneme kümesi üzerinde dene ve en baĢarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 78
  • 79. Kestiricileri Eğitmek için Teknikler  Parametrik Çokboyutlu İstatistik  Bellek tabanlı (Örnek tabanlı) Modeller  Karar Ağaçları  Yapay Sinir Ağları 79
  • 80. Sınıflandırma  x : d-boyutlu değişkenler vektörü  C1 , C2 ,... , CK : K sınıf  Şüphe  Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) 80
  • 82. Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 82
  • 83. İstatistiksel Yöntemler  Sınıf dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor x Tek boyutlu 1 p (x | C j ) Çok boyutlu p (x | C j ) 2 2 j d 1 (2 ) )2 j 2 j x d /2 exp (x Σj exp 1 (x 2 μ j )T Σ j 1 ( x μj ) 83
  • 84. Sınıflandırıcıyı Eğitmek  Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N ( j, xt ˆj x t Cj nj ) ˆ j )2 ( xt ˆ j2 j ˆ P (C j ) t x Cj nj nj n Çok boyutlu: p(x|Cj)~Nd ( j, j) xt ˆ μj xt C j nj ˆ ˆ (xt μ j )(xt μ j )T ˆ j2 xt C j nj 84
  • 91. Davranışlar ve Riskler i: davranış i ( i|Cj) : Sınıf Cj iken kayıp. i davranışının riski: i davranışını almanın getirdiği R( i |x) = j ( i|Cj) P(Cj |x) En az riskli davranışı seç: R( k |x ) = mini R( i |x ) 91
  • 93. Regresyon yt f (x t | ) gürültü. Doğrusal regresyonda parametreler w,w0 f (x t | w ,w 0 ) wx t E (w ,w 0 ) (y t wx w0 t t E E w E 0, w0 w 0) 2 0 w 93
  • 95. Yüksek Dereceli Regresyon  Örneğin, ikinci dereceden t f (x | w 2 ,w 1 ,w 0 ) w 2 x E (w 2 ,w 1 ,w 0 ) (y t t t2 w 2x w 1x t2 t w 1x t w0 w 0 )2 95
  • 97. Çok Değişkenli Doğrusal Regresyon (Scoring)  d değişken sayısı t t t f (x 1 , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) t w 1x 1 w 2x 2 t  wd xd t w0 wT x E (w 0 ,w 1 ,w 2 ,  ,w d ) y t t t 1 t t f (x , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) 2 97
  • 98. Özellik Seçme  Özellikler Altkümesi Seçimi İleriye veya Geriye doğru seçim  Doğrusal İzdüşüm Temel Bileşenler Analizi (PCA) Doğrusal Ayırıcı Analizi (LDA) 98
  • 99. Sıralı Altküme Seçimi Ġleriye Doğru Seçim (x1) (x2) (x 1 x 3 ) (x3) (x4) (x2 x3) (x1 x2 x3) (x 3 x 4 ) (x2 x3 x4 ) Geriye Doğru Seçim (x 1 x 2 x 3 x 4 ) (x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4) (x2 x4) (x1 x4) (x1 x2) 99
  • 100. Temel Bileşenler Analizi (PCA) x2 z2 z2 z1 x1 z1 BeyazlaĢtırma 100
  • 101. Doğrusal Ayırıcı Analizi (LDA) x2 z1 z1 x1 101
  • 102. Bellek Tabanlı Yöntemler  Örnek tabanlı karar verme  En yakın komşu algoritması  Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 102
  • 105. Eksik Veri  Eksik veri olan kayıtları çıkar.  Ortalama ile doldur.  Diğer değişkenler cinsinden regresyon ile doldur. 105
  • 106. Karar Ağaçlarının Eğitilmesi x1 > x2 1 evet x2 > hayır 2 evet hayır y=1 y=0 y=0 2 x1 1 106
  • 108. Entropi e n left n left log n n n right n right log n n 108
  • 109. Yapay Sinir Ağları x0=+1 x1 x2 w1 w2 g wd xd y w0 y g (x 1w 1 x 2w 2  w 0 ) g ( wT x) Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 109
  • 110. Yapay Sinir Ağının Eğitilmesi  d değişken o g ( wT x ) g d i 0 Öğrenme kümesi: wixi X x ,y t t X üzerindeki hatayı en aza indiren w ’yi bul 2 E (w | X ) y t X t o t 2 yt t X g i wixi 110
  • 111. Doğrusal Olmayan En İyileme E Wi wi E wi Eğim iniĢ: Tekrarlı öğrenme öğrenme hızı 111
  • 112. Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1,..,K çıktı Her oj , P (Cj|x)’yi kestirir oj sigmoid ( wTj x ) 1 1 exp( wT x ) j 112
  • 113. Çok Sınıflı Doğrusal Yapay Sinir Ağı o2 o1 oK wKd x0=+1 o t j x1 xd x2 T j t g (w x ) g d i 0 w ji x t i 113
  • 114. Tekrarlı Öğrenme X xt , yt E (w | X ) y t o tj j t j o t 2 j g ( wTj x t ) w ji Doğrusal Doğrusal olmayan E w ji E oj oj w ji t y tj o tj g ' ( )x i w ji y tj o tj x i w ji y tj o tj o tj (1 o tj )x i 114
  • 115. Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 115
  • 116. Çok Katmanlı Yapay Sinir Ağı (MLP) o2 o1 oK tKH o h h2 h1 hH h0=+1 x0=+1 x1 x2 t j t p g H p 0 t t jp h p sigmoid d i 0 w pi x it wKd xd 116
  • 117. Olasılık Ağları Dyspnoea: Nefes Darlığı p ( ) 0.1 p ( | ) 0.05, p ( | ) 0.1,... 117
  • 118. Modelleri Değerlendirme 1. 2. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? M1 , M2 , ..., ML arasında en iyisi hangi modeldir? 118
  • 119. Çapraz Geçerleme 1 1 2 3 2 k-1 k 3 k-1 k k kere tekrar et ve ortalama al 119
  • 120. Modelleri Birleştirme: Neden? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 120
  • 121. Modelleri Birleştirme : Nasıl? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 121
  • 122. Kredi Skor Hesabı (Credit Scoring)  Başvuru (application) ve davranış (behavioral) skor hesabı  İstatistiksel bir model olarak skorkartı  İyi ve kötü risk müşteriler  Alanların doğrusal toplamı: Kredi kartı var mı? Evet: +50 Hayır: –20 122
  • 123. Kredi Skor Hesabında Kullanılan Alanlar  İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl  Ev durumu: Sahip, kiracı, diğer  Postakodu: Kodlanmış  Telefon: Evet, hayır  Yıllık gelir: Kodlanmış  Kredi kartı: Evet, hayır  Yaş: 18-25, 26-40, 41-55, 55+ yıl  Meslek: Memur, işçi, serbest, işsiz, ...  Medeni hali: Evli, bekar, diğer  Bankanın müşterisi olduğu zaman: yıl  Çalıştığı kurumda çalışma zamanı: yıl 123
  • 124. Kredi Skor Hesabının Yararları  Daha doğru karar vermeyi sağlar.  Skorkartı standardizasyon ve nesnel karar getirir.  Hızlı ve ucuzdur.  Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır.  Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir. 124
  • 125. Sepet Analizi (Basket Analysis)  X ve Y malları arasındaki ilişki  X, Y: 0/1 Destek (Support): P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı Güven (Confidence): P(X|Y)=P(X ve Y)/P(Y) = X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı 125
  • 126. Sepet Analizi  X, Y beğeni değerleri  Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))  Cov(X,Y)=E[(X-mX) (Y-mY)] 126
  • 127. Sonuçlar: Verinin Önemi  Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır.  Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır.  Veri madenciliği simya değildir; taşı altına döndüremeyiz. 127
  • 128. Sonuçlar: Uzmanın Önemi  Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır.  Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir.  Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir. 128
  • 129. Sonuçlar: Sabrın Önemi  Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.  Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur. 129
  • 130. Tekrar: Madencilik için Gerekenler  Çok miktarda kaliteli veri  İlgili ve bilgili uzmanlar: 1. Uygulama alanı 2. Veri Tabanları (Veri Ambarcılığı) 3. İstatistik ve Yapay Öğrenme  Zaman ve sabır 130