東京都市大学データ解析入門 9 クラスタリングと分類分析 2

大規模データ解析応用事例
９. クラスタリングと分類分析２
情報工学部知能情報工学科田中宏和

講義スケジュール
1. 講義概要＆ MATLAB入門
2. 行列分解１：特異値分解、行列近似、最小二乗法、擬逆行列
3. 行列分解２：主成分分析、固有顔、次元打ち切り、ランダム化SVD
4. スパース性と圧縮センシング１：フーリエ変換、圧縮センシング
5. スパース性と圧縮センシング２：スパース回帰、スパース分類、RPCA
6. 回帰分析とモデル選択１：線形回帰、非線形回帰、数値最適化
7. 回帰分析とモデル選択２：モデル選択、交差検証法、情報量基準
8. クラスタリングと分類分析１：特徴抽出、クラスタリング法
9. クラスタリングと分類分析２：教師あり学習、分類分析
10. ニューラルネットワーク1：パーセプトロン、誤差逆伝播法
11. ニューラルネットワーク2：確率勾配法、深層ネットワーク
12. 発展学習：神経データ解析

クラスタリングと分類分析２
5.1 Feature Selection and Data Mining
5.2 Supervised versus Unsupervised Learning
5.3 Unsupervised Learning: k-means
5.4 Unsupervised Hierarchical Clustering
5.5 Mixture Models and the EM algorithm
5.6 Supervised Learning and Linear
Discrimination
5.7 Support Vector Machines (SVM)
5.8 Classification Trees and Random Forest
5.9 Top 10 Algorithms in Data Mining 2008

クラスタリングと分類分析２
% 5.1 Feature Selection and Data Mining
CH05_SEC01_1_FischerExtraction.m
CH05_SEC01_1_FischerExtraction_production.m
% 5.2 Supervised versus Unsupervised Learning
CH05_SEC02_1_Fig5p7_Fig5p8.m
% 5.3 Unsupervised Learning: k-means
CH05_SEC03_1_Kmeans.m
CH05_SEC03_1_Kmeans_production.m
% 5.4 Unsupervised Hierarchical Clustering
CH05_SEC04_1_Dendrogram.m
CH05_SEC04_1_Dendrogram_production.m
% 5.5 Mixture Models and EM algorithm
CH05_SEC05_1_GaussianMixtureModels.m
% 5.6 Supervised Learning and LDA
CH05_SEC06_1_LDA_Classify.m
% 5.7 Support Vector Machine
CH05_SEC07_1_SVM.m
% 5.8 Classification Trees and Random Forest
CH05_SEC08_1_Trees.m
CH05_SEC08_1_Trees_production.m

【本日の内容】クラスタリングと分類分析２
1. 教師あり学習とフィッシャー線形分類分析（LDA）
- バイナリクラスの分類器
- クラス内の分散最小化とクラス間の分散最大化
- 線形分類器と二次分類器
2. サポートベクターマシン（SVM）
- マージン最大化
- 線形SVMと非線形カーネルSVM
3. 分類木とランダムフォレスト
- マルチクラスの分類器
- 階層的分類器

入力出力
教師なし学習
入力のみが与えられた
際の学習
入力出力
報酬強化学習
出力に対する報酬が与
えられた際の学習
入力出力
正解出力
誤差
＋
―
教師あり学習
入力に対する正解出力
（教師信号）が与えら
れた際の学習 ( )⋅f
( )⋅f
( )⋅f
教師あり学習・教師なし学習・強化学習

教師あり学習：教師信号（正解）から学ぶ学習
入力出力
正解出力
誤差
＋
―
教師あり学習
入力に対する正解出力（教師信号）
が与えられた際の学習
訓練データ：入力xと正解出力の組
( ) ( ) ( )21 21
,ˆ ˆ ˆ, , , , ,P P
x y x y x y
目的：任意の入力xに対する出力yの関数f
( ),=y f x W
( ),f x W
x y
ˆy
ˆy

教師あり学習：教師信号（正解）から学ぶ学習
入力
データ
ラベル
{ }{ }1, ,2, ,n
j Z mj∈ ∈ =x  
{ }{ },1j Zj Z′∈ ± ∈ ⊂y
{ }{ }1 ,j Zj∈ ± ∈y
出力
ラベル
クラス＋１
クラスー１
ラベル無し
クラス＋１
クラスー１

教師あり学習と線形分類器

フィッシャー線形分類分析（Fisher’s Linear Discriminant Analysis）

× × × ×
クラス１の分散クラス２の分散
クラス１の分散
クラス２の分散
クラス間の距離
フィッシャー線形分類器（Fisher’s Linear Discriminant）
- クラス内の分散を最小化
- クラス間の距離を最大化
適切な射影平面の例適切でない射影平面の例

フィッシャー線形分類器（Fisher’s Linear Discriminant）
n
∈x  y= ∈w x 
22
2
1
i
i
N ∈
= ∑x
xμ
11
1
1
i
i
N ∈
= ∑x
xμ
 1
1
1
1
i
y
iy
N
µ
∈
= ∑ 2
2
2
1
i
y
iy
N
µ
∈
= ∑
×
×
1,i i∈x 
2,i i∈x 
1,iy i∈
2,iy i∈
元々のn-次元データ射影した1-次元データ

① クラス間の距離の二乗 (Between-class covariance)
( ) ( ){ }2
22
1 B2 1
y y
µ µ− = − =x x
w w S wμ μ 
( ) ( ) ( )( ) ( )( )
2 21 1
12 2 2
2 2
1 1 W
y y
i i i i i
i i i
i
i
y yµ µ
∈ ∈ ∈ ∈
  
+ = − − + − − − − =
  
∑ ∑ ∑ ∑x x x x
w x x x wμ μ μ μx w S w
  
   
② クラス内の分散 (Within-class covariance)
フィッシャー線形分類分析の問題
① クラス間の距離の二乗を最大にし、かつ ② クラス内の分散を最小にする射影方向
ベクトルwを求める。
B
ˆ arg max=
w
W
w S w
w
w S w



① クラス間の距離の二乗を最大にし、かつ ② クラス内の分散を最小にする射影方向
ベクトルwを求める。
B
ˆ arg max=
w
W
w S w
w
w S w


クラス内の分散を一定に保ちながら、クラス間の距離の二乗を最大にし、射影方向ベ
クトルwを求める。
B
ˆ arg max subject to 1=W
w
w w S w w S w 

クラス内の分散を一定に保ちながら、クラス間の距離の二乗を最大にし、射影方向ベ
クトルwを求める。
B
ˆ arg max subject to 1=W
w
w w S w w S w 
ラグランジュ未定乗数法を用いた解法
( ) ( )B, 1J λ λ= + − Ww w S w w S w 
( )
( )WB
,
2
J λ
λ=
∂
=
∂
−
w
S w S w0
w
WB λ=S w S w
一般化固有値問題のMATLAB解法
[W, Lambda] = eig(SB,SW);
一般化固有値問題

ラグランジュ未定乗数法：制約条件付き最適化問題の解法
等式制約条件付きの最適化問題
制約条件 g(x)=0 のもと、関数 f(x) を最小化（最大化）する変数xの値を求めよ
( ) ( )ˆ arg min subject to 0f g=
x
x x x
ラグランジュ関数
変数 x とラグランジュ未定乗数 λ に関する（拘束条件なし）の最適化問題を解く
( ) ( ) ( ),J f gλ λ= +x x x
( ) ( ) ( )
( )
( )
,
,
,
0.
J
g
gJ fλ
λ
λ
λ
∂ ∂ ∂
∂ ∂ ∂
∂
= + =
=
∂
=
x x
x x
x
0
x
x
x

等式制約条件付きの最適化問題：具体例１
等式制約条件
のもと、以下の関数
を最小化せよ。
ラグランジュ関数 ( ) ( )2 2
2 4, 2 2y xJ yx y xλ λ+ −= − + + −x
( ) 2 2
2 2y x yf x + −= −x
( ) 2 4g x y= + −x
2 2
2 2 2
2 4
0
0
0
J
y
x
J
x y
J
x
y
λ
λ
λ
=
∂
−=
∂
∂
=
∂
−
= − −
= =
∂
∂
+ −
6 7 2
, ,
5 5 5
x y λ= ==

等式制約条件付きの最適化問題：具体例２
等式制約条件
のもと、以下の関数
の最大値と最小値を求めよ。
ラグランジュ関数 ( ) ( )2 2 2
1, 8 2yJ x x yλ λ+ += − −x
( ) 2
8 2yf x= −x
( ) 2 2
1g x y= + −x
解いてみましょう。

フィッシャー線形分類器の具体例
load catData_w.mat
load dogData_w.mat
CD=[dog_wave cat_wave];
[u,s,v]=svd(CD-mean(CD(:)));
xtrain=[v(1:60,2:2:4); v(81:140,2:2:4)];
label=[ones(60,1); -1*ones(60,1)];
test=[v(61:80,2:2:4); v(141:160,2:2:4)];
% class=classify(test,xtrain,label);
[class,err,post,logl,str] = ...
classify(test, xtrain, label, 'linear');
% class テストデータの分類結果
% err 誤答率
% str 分類器の詳細線形分類器

フィッシャー二次分類分析（Quadratic Discriminant Analysis）
フィッシャー二次分類器の具体例
load catData_w.mat
load dogData_w.mat
CD=[dog_wave cat_wave];
[u,s,v]=svd(CD-mean(CD(:)));
xtrain=[v(1:60,2:2:4); v(81:140,2:2:4)];
label=[ones(60,1); -1*ones(60,1)];
test=[v(61:80,2:2:4); v(141:160,2:2:4)];
% class=classify(test,xtrain,label);
[class,err,post,logl,str] = ...
classify(test, xtrain, label, 'quadratic');

ここで演習
• フィッシャー分類分析のコードCH05_SEC06_1_LDA_Classify.mを実行してみましょう。
線形分類器と二次分類器の訓練誤差はどちらも
err = 0.1167
です。では、二つの分類器の汎化誤差を計算し、どちらの分類器がよいか、考えて
みましょう。ここで、テストデータに対する分類器の出力は変数classに入ってい
ます。

サポートベクトルマシン：マージン最大化
サポートベクトルマシン（SVM）
- 分類平面とサンプル点の最小距離（マージン）を最大化する
- サポートベクトル＝分類平面に一番近いサンプル点

幾何学の復習
O
w
0b+ =w x
x
分離平面
原点
b+w x
w

データ点xと分離平面の距離
b+w x
w


サポートベクトルマシンの最適化問題（線形分離可能の場合）
1 if 1
1 if 1
i i
i i
b y
b y
+ ≥ =+
+ ≤ − = −
w x
w x


( ) 1i iy b+ ≥w x
1b
≥
+w x
w w

( )1
maximize subject 1forto i i iy b+ ≥ ∀w x
w

SVM最適化問題１
( )21
minimize subject 1fto
2
ori i iy b ≥+ ∀w w x
SVM最適化問題２

Karush-Kuhn-Tucker (KKT) 条件：不等式制約条件付き最適化問題の解法
不等式制約条件付きの最適化問題
制約条件 g(x)≤0 のもと、関数 f(x) を最小化する変数xの値を求めよ
( ) ( ) 0ˆ arg min subject tof g= ≤
x
x x x
( ) ( ) ( ),J f gλ λ= +x x x
( ) ( ) ( ),
,
J f gλ
λ
∂ ∂ ∂
∂
=
∂
+
∂
=
x x
x x x
x
0 ( ) ( )0, 0, 0.g gλ λ= ≥ ≤x x
Karush-Kuhn-Tucker (KKT) 条件

Karush-Kuhn-Tucker (KKT)条件：不等式制約条件付き最適化問題の解法
不等式制約条件付きの最適化問題：具体例１
二つの不等式制約条件
のもと、以下の関数を最小化せよ。
( ) ( ) ( ) ( ) ( )
2 2
1 2 1 2,, , 2 4 32 1J x y x x y x yyλ λ λ λ+ −= − + + − + − +
( ) ( )21 , 4 3, ,g x y x y g x y x y= + − =− +
( ) ( ) ( )
2 2
, 2 2 1f x y x y= − + −

KKT条件：不等式制約条件付き最適化問題の解法
( ) ( ) ( ) ( ) ( )
2 2
1 2 1 2,, , 2 4 32 1J x y x x y x yyλ λ λ λ+ −= − + + − + − +
( )
( )
( )
( )
1 2
1 2
1
2
0 2 2
0 4 1 4
0 4 3
0
x
y
x y
x y
λ λ
λ λ
λ
λ
= − + −
= − + +
= + −
= − +
1 2 0λ λ= = 1 00, x yλ += − = 24 3 0, 0x y λ+ −= = 4 3 0, 0x y x y+ − = − + =① ② ③ ④
KKT条件より、以下の4通りに場合分けして解を探す。

KKT条件より、以下の4通りに場合分けして解を探す。
5 1
,
3 3
x y= =
4通りの場合分けのうち、不等式制約条件を満たしつつ最小値を与える解は
③
1 2 0λ λ= =① 2, 1x y= = 1 2 00,g g> <
1 00, x yλ += − =②
4
3
x y= = 1 2 00,g g> =
24 3 0, 0x y λ+ −= =③
5 1
,
3 3
x y= = 1 2 00,g g= < 1f =
4 3 0, 0x y x y+ − = − + =④
3
5
x y= = 1 2 00,g g= =
57
25
f =

不等式制約条件付きの最適化問題：具体例２
以下の不等式制約条件
のもと、以下の関数を最小化せよ。
( )
( )
2
1
3
2
2
4
5
( ,
2
) ,
( , )
, ,
, 4,
.
g y
x y x
x y
x y x
g x y x
y
y
g
g
−
+ −
= −
=
= −
= +
( ) ( ) ( )
2 2
, 3 2f x y x y= − + −

サポートベクトルマシンの最適化問題（線形分離可能の場合）
( )21
minimize subject 1fto
2
ori i iy b ≥+ ∀w w x
SVM最適化問題２
( ) ( ){ }1
21
, , 1
2
i
i
i
N
iJ b y bα α
=
= + − +∑w w w x
1i
i i i
N
J
yα
=
= −
∂
=
∂
∑w x
w
0
1
0 i i
N
i
J
y
b
α
=
= −
∂
∂
= ∑
( ){ }0 1i i iy bα= − +w x
0 iα≤
( )0 1 i i by≥ − +w x

線形分離問題と線形非分離問題
線形分離問題（linearly separable）
- クラスを直線（一般には超平面）で分離できる問題
線形非分離問題（linearly non-separable）
- クラスを直線（一般には超平面）で分離できない問題

高次元特徴空間による線形分離問題への変換
二次元での線形非分離問題
( ),x y ( ), ,x y z
三次元での線形分離問題
カーネルサポートベクトルマシン（kernel SVM）の考え方
一般に、高次元の特徴空間へ写像することで、低次元の線形非分離問題は高次元の線
形分離問題に変換できる。

サポートベクターマシン：線形SVMと非線形SVMの比較
%% SVM demo
xtrain = [x_2dim(1:200,:); x_2dim(301:500,:)]; % training data
xtest = [x_2dim(201:300,:); x_2dim(501:600,:)]; % training labels
train_labels = [ones(200,1); -ones(200,1)]; % test data
test_labels = [ones(100,1); -ones(100,1)]; % test labels
Mdl_linear = fitcsvm(xtrain,train_labels,'KernelFunction','linear');
CMdl_linear = crossval(Mdl_linear); % cross-validate the model
classLoss_linear = kfoldLoss(CMdl_linear); % compute class loss
Mdl_RBF = fitcsvm(xtrain,train_labels,'KernelFunction','RBF');
CMdl_RBF = crossval(Mdl_RBF); % cross-validate the model
classLoss_RBF = kfoldLoss(CMdl_RBF); % compute class loss
disp(['Error rate (Linear): ' num2str(classLoss_linear)]);
disp(['Error rate (RBF): ' num2str(classLoss_RBF)]);
Error rate (Linear): 0.3575
Error rate (RBF): 0.0025
線形SVMの誤差率 0.3575
カーネルSVMの誤差率 0.0025
CH05_SEC07_1_SVM.m

ここで演習
• SVMのコードCH05_SEC07_1_SVM.mを実行させてみましょう。線形SVMと非線形SVM
の違いを見てみましょう。
• 以下の例で、線形SVM (“linear”) と非線形SVM (“RBF”) の違いを見てみましょう。
demo_SVM2.m（WebClassにあります）で、以下の非線形分類問題を解いてみましょ
う。
訓練データ線形SVM 非線形SVM

決定木（classification tree）によるマルチクラス分類
①
②
③
①
②
③

分類木（classification tree）によるマルチクラス分類
分類木（classification tree）
- ラベル付きデータを系統的に分割する方法
- 階層的（最初に大きく分けて、徐々に細かく分ける）
- ２クラスおよびマルチクラス分類
（注）決定木（decision tree）とも呼ばれます

決定木（classification tree）：アヤメ三種の分類
%% fisher iris
load fisheriris;
% 3階層の分類木を構築
tree = fitctree(meas, species, 'MaxNumSplits’, 3, 'CrossVal’, 'on');
% 分類木をグラフ化
view(tree.Trained{1},'Mode','graph');
% CVで汎化誤差を評価
classError = kfoldLoss(tree)
CH05_SEC08_1_Trees_production.m
x1 = 蕚の幅
x2 = 蕚の長さ
x3 = 花弁の幅
x4 = 花弁の長さ
特徴ベクトル（4次元）クラス
• setosa
• versicolor
• virginia

①
②
③
①

①
②
③
①
②

ここで演習
• 決定木による分類のコードCH05_SEC08_1_Trees_production.m を走らせてみましょう。

【まとめ】クラスタリングと分類分析２
1. 教師あり学習とフィッシャー線形分類分析（LDA）
- クラス内の分散最小化とクラス間の分散最大化
- 線形分類器と二次分類器
2. サポートベクターマシン（SVM）
- マージン最大化
- 線形SVMと非線形カーネルSVM
3. 分類木とランダムフォレスト
- マルチクラスの分類器
- 階層的分類器

おまけ Top 10 Algorithms in Data Mining 2008
アルゴリズム名 MATLAB コマンド例
k-means [labels,centers] = kmeans(X,k)
EM (mixture models) Model = fitgmdist(X,k)
Support Vector Machines (SVMs) Model = fitcsvm(xtrain,label)
CART (Classification and Regression Trees) tree = fitctree(xtrain,label)
k-nearest Neighbors (kNN) label = knnsearch(Mdl,test)
Naive Bayes Model = fitNaiveBayes(xtrain,label)
AdaBoost (Ensemble Learning and Boosting)
ada =
fitcensemble(xtrain,label,’Method’,’AdaBoostM1’)

東京都市大学データ解析入門 9 クラスタリングと分類分析 2

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 東京都市大学データ解析入門 9 クラスタリングと分類分析 2

Similaire à 東京都市大学データ解析入門 9 クラスタリングと分類分析 2 (20)

Plus de hirokazutanaka

Plus de hirokazutanaka (11)