大數據分析演算法--帶Canopy預處裡的kmeans

大數據分析演算法
帶 Canopy 預處裡的 Kmeans
鐘振聲 Tony Chung

Agenda
• Canopy 演算法概念
• Mahout 限制
• Mahout 分群結果如何串回客戶ID或是識別ID

Canopy演算法基本概念 1/2
• 兩個距離閥值參數:
• T1(弱連結距離), T2(強連結距離)
• T1 > T2
3

Canopy演算法基本概念 2/2
• 演算法步驟
1. 取得T1與T2距離閥值。
2. 將資料集向量化後得到一list放入記憶體。
3. 從list任意取一點P，計算P點與所有Canopy之間的距離(如果當前沒有
Canopy則把P當作一個新Canopy的中心)，如果P點與某個Canopy距離在
T1以內，則點P加入到這個Canopy。
4. 如果P點與某個Canopy距離在T2以內，則需將P點從list中刪除，這一步
是認為P點與這個Canopy已經很接近了，因此不用它再做其他Canopy的
中心。
5. 重複3、4步驟，直到list為空則結束
4

5
Canopy 中心
Canopy 中心
Canopy 中心
帶Canopy的 K-means 基本概念
Kmean一開始的重心起始點是隨機撒出，若使用Canopy則取代原隨機撒出的步驟

6

7

8

9
帶Canopy預處裡的優點
• Canopy可以自動幫我們確定K
• Canopy可以幫我去除離群值干擾
隨然解決Kmeans的
一些問題，但也引進
了新的問題: T1與T2
的選取。

Mahout 限制
• 輸入的文字檔必須以空格分隔
• 輸入文字檔內容只能包含分割變數(數值型)，不能包含客戶ID或
識別ID
• 建模結果檔為半結構化文字檔
10

串回客戶ID或是識別ID方式
1. 先取得各分群重心
2. 將Hadoop平台上預分群的資料集下載至關聯式資料庫系統
11

串回客戶ID或是識別ID方式
3. 透過SQL語法自行計算每個觀察值到各重心的距離後，再歸類到
最近的群集
12
select
cust_id,
case when C1_Dist < C2_Dist and C1_Dist < C3_Dist and C1_Dist < C4_Dist then 'Cluster1'
when C2_Dist < C1_Dist and C2_Dist < C3_Dist and C2_Dist < C4_Dist then 'Cluster2'
end as cluster_name
from
(
select
cust_id,
/*計算到各質心距離*/
SQRT( SQUARE(var1 - 6.249) + SQUARE(var2 - 2.868) + SQUARE(var3 - 4.854) + SQUARE(var4 - 1.651) ) as C1_Dist,
SQRT( SQUARE(var1 - 5.006) + SQUARE(var2 - 3.418) + SQUARE(var3 - 1.464) + SQUARE(var4 - 0.244) ) as C4_Dist
From kmean_DT
) aa
) aaa

大數據分析演算法--帶Canopy預處裡的kmeans

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (19)

大數據分析演算法--帶Canopy預處裡的kmeans