2. K-Means Algoritması Nedir?
En eski kümeleme algoritmalarından olan
K-Means, 1967 yılında J.B. MacQueen
tarafından geliştirilmiştir.
K-Means’in atama mekanizması, her
verinin sadece bir kümeye ait
olabilmesine izin verir.
Merkez noktanın kümeyi temsil etmesi
ana fikrine dayalı bir metottur.
3. K-Means Algoritması Nedir? -2-
Verileribelirlenen küme sayısına göre, her küme için
belirlenen ortalama değer doğrultusunda
kümelenmesi üzerine çalışır. K-Means algoritması
eldeki verileri k adet kümede ve kümelerin
ortalamalarına göre kümelere ayırır. K küme sayısı
kullanıcı tarafından verilir.
Kısaca n tane nesneyi –küme içi benzerlik
maksimum, kümeler arası benzerlik minimum
olacak şekilde- k tane kümeye böler.
4. K-Means algoritması Nasıl Çalışır?
K-Means algoritmasının çalışma mekanizmasına göre öncelikle her
kümenin merkez noktasını (centroid) veya ortalamasını temsil etmek
üzere k adet nesne -rasgele- seçilir.
Kalandiğer nesneler, kümelerin ortalama değerlerine olan uzaklıkları
dikkate alınarak en benzer oldukları kümelere dahil edilir.
Daha sonra, her bir kümenin ortalama değeri hesaplanarak yeni
küme merkezleri belirlenir ve tekrar nesne-merkez uzaklıkları
incelenir. Herhangi bir değişim olmayıncaya kadar algoritma
ötelenmeye devam eder.
Enyaygın olarak kullanılan uzaklık hesaplama formülü Öklit uzaklık
formülüdür.
6. Merkez Noktaların Belirlenmesi
Başlangıç küme merkezlerinin seçimi k-means’in sonucunu önemli
oranda etkiler. Başlangıç noktalarının belirlenmesinde çeşitli teknikler
vardır. Bu tekniklerden bazıları:
1) k sayısı kadar rastgele veri seçilip küme merkezleri olarak atanır.
2) Veriler rastgele k tane kümeye atanır ve küme ortalamaları alınarak
başlangıç küme merkezleri belirlenir.
3) En uç değerlere sahip veriler küme merkezleri olarak seçilir.
4) Veri setinin merkezine en yakın noktalar başlangıç noktaları olarak
seçilir.
13. Açıklama:
K- Means Algoritmasına göre kümeleme yapılırken,
İlk olarak karışık halde verilmiş olan veri seti sıralanır. (K-Means Kümeleme Örneği
-2)
Sıralama işleminden sonra, her verinin başlangıçta rastgele belirlenmiş olan
merkez noktalarına göre uzaklığı alınır. Veriler en yakın olduğu merkez
noktasının kümesine dahil olur .(K-Means Kümeleme Örneği -3)
Bu adımdan sonra her küme için küme elemanlarının ortalaması alınır. Bu
ortalama yeni merkez noktasıdır.(K-Means Kümeleme Örneği -4’de merkez noktalarının
değerleri değişiyor.)
Sonraki adımda, tekrar her verinin merkez noktalarına olan uzaklığı hesaplanır ve
veriler en yakın olduğu merkez noktasının kümesine dahil edilir. Küme
elemanlarının ortalaması alınıp yeni merkez noktaları belirlenir.
Kümeleme işleminin sonucu, bir sonraki adımda aynı çıkına kadar bu işlem
tekrarlanır.
14. K-means Algoritmasının Avantajları
ve Dezavantajları
Avantajı:
Uygulanabilirliğikolaydır ve büyük veri kümelerinde hızlı çalışabilir.
Veri sayısı çok fazla olan hesaplamalarda, K-Means, küme sayısı
küçük ise hesaplamaları, hiyerarşik kümelemeden daha hızlı yapar.
Dezavantajı:
K-Means algoritması k küme sayısını tespit edememektedir. Bu
nedenle uygun k sayısını bulana kadar bir deneme yanılma süreci
gerçekleşmektedir.
Gürültülü verilere duyarlıdır. Bu veriler de kümelere dahil edilir.
15. K-Medoids Algoritması Nedir?
K-Medoids algoritmasının temeli, verinin çeşitli yapısal özelliklerini temsil
eden k tane temsilci nesneyi bulma esasına dayanır.
Bir
grup nesneyi k tane kümeye bölerken esas amaç, birbirine çok
benzeyen nesnelerin bir arada olduğu ve farklı kümelerdeki nesnelerin
mümkün olduğunca birbirinden benzersiz olduğu kümeleri bulmaktır.
En
yaygın kullanılan K-Medoids algoritması, 1987 yılında Kaufman and
Rousseeuw tarafından geliştirilmiştir.
Amacın k tane nesneyi bulmak olmasından dolayı, K-Medoids metodu
olarak adlandırılmaktadır.
16. Temsilci Nesne Nedir?
Temsilcinesne diğer nesnelere olan ortalama
uzaklığı minimum yapan kümenin en merkezi
nesnesidir. Bu nedenle, bu bölünme metodu her
bir nesne ve onun referans noktası arasındaki
benzersizliklerin(uzaklıkların) toplamını
küçültme mantığı esas alınarak uygulanır.
Kümeleme literatüründe temsilci nesnelere
çoğunlukla merkeztipler (centrotypes)
denilmektedir.
17. K-Medoids Algoritması Nasıl
Çalışır?
k adet temsilci nesne tespit edildikten sonra
her bir nesne en yakın olduğu temsilciye
atanarak k tane küme oluşturulur. Sonraki
adımlarda her bir temsilci nesne temsilci
olmayan nesne ile değiştirilerek kümelemenin
kalitesi yükseltilinceye kadar ötelenir. Bu kalite
nesne ile ait olduğu kümenin temsilci nesnesi
arasındaki ortalama benzersizliğe göre
değişir.
18. K-Medoids Kümeleme Adımları
K-Medoids algoritmasında birinci aşama yapılandırma aşamasıdır. Bu
aşama kümelemenin başlangıç aşamasıdır, k adet temsilci nesne
seçilene kadar devam eder. Başlangıç merkezleri rastgele atanabileceği
gibi çeşitli işlemler sonucu da belirlenebilir. Algoritmanın ikinci aşaması
değiştirme ( Swap ) aşamasıdır. Bu aşama temsilci nesneleri geliştirerek
kümeleme işleminin verimini arttırmak için uygulanır. Her bir nesne
merkez nokta çifti için hesaplama yapılır. Değişim ihtimallerinin
kümelemeye nasıl bir etkisi olduğu incelenerek her bir kombinasyon için
kümeleme kalitesi hesaplanır.
21. Açıklama:
K- Medoids Algoritmasına göre kümeleme yapılırken,
İlk olarak karışık halde verilmiş olan veri seti sıralanır.
Sıralama işleminden sonra, her verinin başlangıçta rastgele
belirlenmiş olan merkez noktalarına göre uzaklığı alınır. Veriler en
yakın olduğu merkez noktasının kümesine dahil olur.
Bu adımdan sonra her küme için küme elemanlarının ortalaması alınır. K-
Medoids algoritmasında küme elemanı olmayan bir değer merkez
noktası olamaz. Bu nedenle küme ortalamasına en yakın olan nokta
yeni merkez noktası olur.
Sonraki adımda, tekrar her verinin merkez noktalarına olan uzaklığı
hesaplanır ve veriler en yakın olduğu merkez noktasının kümesine dahil
edilir. Küme elemanlarının ortalaması alınıp, ortalamaya en yakın noktalar
yeni merkez noktaları olarak belirlenir.
Kümeleme işleminin sonucu, bir sonraki adımda aynı çıkına kadar bu
işlem tekrarlanır.
22. Not**
Görüldüğü gibi K-Medoids kümeleme
algoritmasını K-Means kümeleme
algoritmasından ayıran özellik, merkez
noktalarının belirlenme şeklidir. Küme
elemanı olmayan bir değerin merkez
noktası kabul edilmemesi ise gürültülü
verilerin kümelere dahil edilmesine rağmen,
küme üzerindeki etkilerini ortadan kaldırır.
23. K-Medoids Algoritmasının
Avantajları ve Dezavantajları
Avantajı:
Bölünmeli metotlar içinde K-Medoids daha iyi ve kararlı kümeleme sonuçları
üreten bir algoritmadır. Verilerin işleniş sırası ve ilk atamadaki merkez
noktaların kümeleme üzerinde etkisi yoktur.(Çünkü ilerideki adımlarda kümenin
elemanı olmayan hiçbir nokta merkez noktası olamaz.)
Ayrıca en merkezi elemanların kümeyi temsil etmesi özelliği örnekte görüldüğü
gibi gürültülü verilerin kümeleme üzerindeki etkisini ortadan kaldırır.
• 2, 4, 6, 8, 10 ortalama: 6
• 2, 4, 6, 8 , 10, 1002 ortalama: 172
• 2, 4, 6, 8 ,10, 1002 orta nokta: 6
Dezavantajı:
K-medoids, k-means’de olduğu gibi küme sayısının başlangıçta tanımlanmasını
gerektiren bir metottur. Veriye uygun k sayısının belirlenmesi için birden fazla
denemenin yapılması gerekir.
24. K-Medoids Algoriymasının K-Means Algoritması ile
Karşılaştırılması
K-Medoids K-Means
K-Medoids algoritmasında her
küme, kümede bulunan bir K-means her küme kendi
nesneyle temsil edilir.
merkeziyle temsil edilir.
K-Medoids algoritması gürültülü
verilerden etkilenmez. K-Means algoritması
Medoid (Merkez nokta) küme gürültülü verilerden
içerisinde en merkezi veridir. etkilenir.
Küçük verilerde daha güvenilirdir.
K-Means algoritması
K-Medoids’in K-means’e
üstünlüğü benzemezlik değerini
büyük verilerde de
en aza indirmesidir. güvenilirdir.