クラシックな機械学習の入門 3. 線形回帰および識別

3. 線形回帰および識別
線形回帰のモデル
正則化項の導入
L2正則化
L1正則化
正則化項のBayes的解釈
線形識別
生成モデルを利用した識別
2乗誤差最小化の線形識別の問題点
クラシックな機械学習の入門
by 中川裕志（東京大学）

線形モデル
データの分布状況
から線形回帰式を求
める
w0
x
y y=w1x+w0

線形モデル
T
101
0
],,,,[,],,,1[, K
T
Ki
K
i
i wwwxxxwy   
wxwx ただし、
入力ベクトル：x から出力：y を得る関数がxの線形関数
（wとxの内積）
一般に観測データはノイズを含んでいる。つまり
得られたN個の観測データの組（y,X）に対して最適なwを推
定する。
そこで、yとの2乗誤差を最小化するようにwを選ぶ。
と考える。はノイズで ),0(, 2
 Ny  wx
wX

2乗誤差の最小化
yXXXw
yXXwX
w
XwyXwy
XwyXwyww
x
x
Xy
TT
w
N
1
TT
T
T
K
NKN
K
T
T
N
w
w
w
w
xx
xx
y
y
1
1
0
1
1111
)(
0
)()(
)()(minargˆ
1
1




















































を解くと
の推定値


 正規方程式と呼ばれる基本式

補遺：正規方程式の導出
 
 
     
 
 
     
 
)(2)()(
..)(
..)(..)(..)(
..)(
..)(..)(..)()()(
)()(
rulechain
0222)1(
2
)1(0
)()(
)()()(
1
XwyXXwyXXwyX
y
yy
w
y
y
yy
w
y
w
XwyXwy
x
x
x
x
x
x
yXXXw
XwXyXXwXyXXwyX
XwXXXwXwX
w
wXXw
w
XwXw
w
XwXw
yXXy
w
Xwy
a
x
xa
yX
w
yXw
a
x
ax
w
XwXw
w
Xwy
w
yXw
w
XwyXwy
XwXwXwyyXwyyXwyXwyXwyXwy

























































TTT
T
TTTT
TT
TTTTT
TTTTT
TTTTTT
TTT
TT
T
TTT
TTTTTT
TTTTTTTTTT
g
gfggf
cf
　　
　　
　を使えば　　の　行列で微分する場合
よりより

正規方程式を解く簡単な例
 


















































































































































































N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
ii
N
i
i
N
i
i
N
i
i
N
i
i
N
i
ii
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
ii
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
T
TT
N
i
ii
N
i
i
N
i
i
N
i
i
N
i
i
N
N
N
N
T
NN
xw
N
y
N
w
xxN
yxyxN
N
x
N
y
xxN
yxxyx
w
xxN
yxyxN
w
Nx
xx
xxN
yx
y
w
w
xx
xN
y
y
xxw
w
x
x
xx
w
w
y
y
x
x
1
1
1
02
11
2
11111
2
11
2
1111
2
0
2
11
2
111
1
1
11
2
2
11
2
1
1
1
1
0
1
2
1
1
1
11
0
1
1
1
0
11
11
1
11
1
1
11
1
1
XX
yXwXX
yXXwXwyX T
　　　　
　　
は正規方程式　　








用語：誤差、損失、目的関数
 線形モデルで最小化したかったのは２乗誤差
 真のモデルにおける値(２乗誤差におけるy)と
予測値(２乗誤差におけるXw)の差異を表す関数を
損失関数（単に損失）あるいはLossと呼び、Lで表す
ことが多い。
 上記のような最適化問題において最小化（一般的に
は最適化）したい関数を目的関数と呼ぶ。
 線形モデルの２乗誤差最小化では
２乗誤差＝損失＝目的関数

線形モデルの一般化
  T
Ky )](,,)(,1[, 1 xxxw(x)  
基底関数重み
N個の観測データ（y,x）に対して
（y、φ（x））が得られたとすると、2乗誤差を最小化するｗは前
を同じく以下の通りだが、少し別の見方で解く。
yxφxφxφ TT
w )())()((ˆ 1

基底関数の例
 
 
  





















T
T
x
x
xφ
N
1
N
1
y
y
y



 
 
 
 
  
  urierFast Fo:even):(m2exp
sigmoidal:
/exp1
1
Gaussian:
2
exp
lpolynomina:
2
2
















 


m
xj
ix
sx
x
s
x
x
xx
j
j
j
j
j
j
j







 {x(ベクトル),y}が観測データ(training data)
 w,βを決定する、即ち (p(y|x,w,β)を最大化）
 N組のi.i.d.観測データすなわち教師データがあるとする。
正規方程式を求める別の方法
























K
T
T
T
N
w
w
w
wyy

 1
0
1 ),,(
N
1
x
x
Xy
すると次のページのようにp(y|x,w,β）が書ける。
),),(|(),|(
.),0(),(
1
21






wxwx,
wx
φyNyp
Nφy を精度と呼ぶ

両辺のlogをとる
),),|(),( 1
1


 
N
i
i φyNp w(xwX,|y i
 


N
i
iyL
L
NN
wp
1
2
0
,
2
1
)(
)(2log
2
log
2
),,(log
w)(xw
wX,w|y
i

log p(y|w,X,β)をw,βについて最大化したい。まず、
wについて最大化する。

 
yφ(X)φ(X)φ(X)w
wφ(X)φ(X)yφ(X)
w)(x)(x)(x
w)(x)(x
w
Xw,|y
iii
ii
TT
TT
N
i
T
N
i
i
N
i
i
y
y
p
1
11
1
)(ˆ
)(
0
0,
),(log

















 
 
  










T
N
T
φ
φ
x
x
xφ 
1

バイアスw0の部分だけに注目してみると
• 対数近似関数から最適なw0をによって求めると
 
 


 




















































































































K
j
N
i
jj
N
i
i
N
i
K
Ki
N
i
K
Ki
N
i
K
Ki
N
i
K
Ki
w
N
y
N
w
w
w
w
y
w
w
w
y
w
w
w
w
y
w
w
w
w
y
w
L
1 11
0
1
0
1
1
1
1
0
1
0
1
2
0
1
1
0
1
2
1
0
1
0
)
11
0))),..(2))),..,1(2
))),..(
))),..,1(
i
iiii
ii
ii
(x
(x(x(x(x
(x(x
(x(x
w







ｙの平均基底関数の学習データの平均のｗ
重み付き和

精度βを求める。
log p(y|w,X,β)をβに対して最大化
ただし、wは最適化されたものを用いる
 
 









N
i
i
N
i
i
y
N
yL
L
Np
1
21
1
2
ˆ
1ˆ
ˆ
2
1
)(
)ˆ(
2
),ˆ(log
w)φ(x
w)φ(xw
w
X,w|y
i
i



ｙの予測値と観測された値の差の２乗の平均

φ１(x)
φ2 (x)
新規データ：y
  S:が張る空間wx
yからSに最も近い点（垂直に落としている）
幾何学的イメージ

計算の効率化
 大きなdata setsに対して
の右辺第1項の逆行列計算量が問題
 特にデータの次元Nに対してO(N3)なので高次
元だと大変
 定石は、コレスキー分解O(N2)して上/下半3角
行列で表現される連立方程式を2回解く
 L（ｗ）を最小化するようなwの数値計算
yφφφw TT 1
)(ˆ 

T
nnny
L
)())((
)(
)()(
)()1(
xwxw
www






目的関数（すなわち損失L(w))の減る方向へ進む( ー
gradientをwに加える）方法をgradient descent は呼ばれ、
最適化における基本的数値計算法である。

正則化項の導入
モデルを複雑にするほど学習データにはよく
合致するが、学習データ以外のデータには弱
いという過学習を起こす。
過学習を抑えるために、損失関数に正則化
項を導入。
正則化項にはモデルをできるだけ簡単化す
る方向に作用する。
データが高次元の場合には次元削減効果あり。

一般的な正則化項
正則化項
 q=2のときがL2正則化
 q=1のときはLASSO: １ノルムによる正則化なの
で L1正則化と呼ぶ
 Least Absolute Shrinkage and Selection
Operator
 λが十分大きいと、wjのいくつかは0になりやす
い → スパースなモデル
q=0のときはL0正則化。解きにくい問題（上記２つ
と違い凸ではない）
   

K
j
q
j
N
i
ii wφyL
1
2
1
||
2
),
2
1
)(

w(xw

• 制約
のもとで、L(w)を最小化する、と考える。

qK
j
jw
1
q=0.5 q=1 q=2 q=4

正則化項
(wの影響を小さく
する効果)
Wの２ノルムによる
正則化であるので、
L2正則化と呼ぶ
 
yφ(Xφ(Xφ(XIww
www(xw
w
TT
T
N
i
ii
L
φyL
))))()(minargˆ
2
),
2
1
)(
1
2
1



 


最小化すると
最適なwはL(w)を微分して０とすれ
ば上記のように解析的に閉じた式で求
まる。
これはφ(X)とλの案配よって決まり、
どの成分も強制的にゼロにしようとい
う力は働かない
L2正則化

   

K
j
j
N
i
ii wφyL
1
2
2
1 2
),
2
1
)(

w(xw
Ｗ１
Ｗ２
最短の2乗距離
で結ぶ
Ｌ２正則化のイメージ

L1正則化
L２正則化ではwの最適値を損失Lの微分
で閉じた式で求められたが、L1正則化では
|w|がｗ＝０で微分できないので、ややこしくな
る。
L1正則化を行う逐次的な方法と
L1正則化がｗの要素の多くをゼロ化する傾
向を以下で説明する
wˆ

1
   

K
j
j
N
i
ii wφyL
1
2
1 2
),
2
1
)(

w(xw
Ｗ１
Ｗ２
Loss+L1の
最小距離で
結ぶ
Case 3 では、
W2=0となる
2
3
Ｌoss L1
しかし、この説明図では
大雑把だ！以下でL1正
則化に関してもう少し細
かく議論する。
Ｌ１正則化イメージ：
軸でのLossの微分=0としてを求める2w 2
~w

ある次元dに着目してL(w)を最小化するような
wdを求める。
これを各次元について繰り返し、 L(w)の最小化
を図る。 wdについてL(w)を書き直すと
 とおきwdの最適値を求めたいが絶対
値を含む第２項L1(w)が微分できないので、ひと
まずLoss(w)を微分して０とおくと
  )101(||
2
),
2
1
)(
1
2
1
  
LwφyL
K
j
j
N
i
ii

w(xw
     
    　　　　　　　　　　　　　　　　　　　 )201(1
22
1
1
2

















    
LLLoss
wwwwyL
dj
jd
N
i dj
jijdidi
ww
xxw


  0


dw
L w

     
     
   
 
 
 
 

 
 
 









































N
i
id
N
i dj
jijiid
d
d
N
i dj
jijdidiid
N
i dj
jijdidi
dd
wy
w
wwwy
wwy
ww
Loss
1
2
1
1
1
2
~
~0
2
1
x
xx
xxx
xx
w




とするの解を　　
これを用いてL(w)を書き換える。ただし、wdに関係しないところ
は当面定数と見なせるので、無視した。
     
           
    Constwwww
Constwwywww
ConstwwywwwL
d
N
i
iddd
N
i
idd
d
N
i
N
i
id
dj
jijidid
N
i
idd
N
i
idd
d
N
i dj
jijididdidd






































 
 

 
 



1
2
1
22
1 1
2
1
2
1
22
1
22
~2
2
2)~(2
xx
xxxxx
xxx

 
 
 
が働くスパース化）される力になりゼロ化　
がゼロに近づくとの解のすなわちにより
　　矛盾　　　　すなわちだと　　　　　　　
　　矛盾すなわちだと　　　　　　　
　　なぜなら　なら　　
　なので　　なら　
　　なので　なら　
を探すなる
とおくと、ここで
(0
~~3case
~0~0
~0~0
0~3case
~00~2case
~00~1case
0
)(
0undefined
0~
0~
)(
~
2
1
)(
2
2
1
2
























d
ddd
ddd
ddd
dd
dddd
dddd
d
d
d
d
ddd
ddd
d
d
dddddN
i id
w
wwLossw
www
www
ww
wwww
wwww
w
w
wL
w
www
www
w
wL
constwwwwwL
w
x













Ｗ全体の正則化
[step 1] ｗの各要素を適当な値に初期化
[step 2] w の各要素の値w_k(k=1,..,K)が収束
するまで以下step 3,4,5 を繰り返す
[step 3] k=1,.., Kでstep 4，step 5を繰り返す
[step 4] wj (j ≠ k)を用いて case1,2,3にし
たがってwjを計算してゼロ化
[step 5] wkを更新
[step 6] 収束したらwの最終結果とする

wdのゼロ化のイメージ
dw~
  
  
dw

L1正則化が支配的になりをゼロ
化する様子を下図で例示する
dwˆ
λ大
λ小
wd
L(wd)
dw
2乗誤差Loss
が支配的
正規化項L1
が支配的
０

正則化項のBayes的解釈
 Bayesでは事後確率は
観測データの確率×事前確率
 事後確率を最大化するパラメタηを求めたい
 ここで対数尤度にしてみると、次のように解釈できる
   
    



|log|logmaxargˆ
||maxargˆ
PXP
PXP

 パラメタは事前分布のハイパー
損失関数正則化項

例：事前分布、事後分布とも正規分布
 
 
   
     
  ノルムによる正則化項　　　　
とすると　　事前分布の重みをここで、
　　　
　　
も同様にすると事前分布
L2
2
),(
2
1
maxarg
,0
2
1
),(
2
1
minarg
),|(log),|(logminarg
2/),|(log
,|
2/),()1,),(|(log)1,|(log
)1,0()(
),,(
2
2
2
1
0
1





















































wwwx
wwwx
ww,x
www
w
wxwxw,x
wx
w
x
x
Xy
w
w
w
N
1
T
i
ii
T
i
ii
i
ii
T
i
ii
i
ii
i
ii
K
T
T
T
N
φy
φy
pyp
p
p
φyφyNyp
Nφy
w
w
w
yy









事前分布のwの
分散:λー1 とも見
える。

例：事前分布がLaplace分布、事後分布が正規分布
 
 
  ノルムによる正則化項　　　　　
　　
も同様にすると分布の事前分布は期待値
L1
2
),(
2
1
minarg
)|(log),|(logminarg
2
)|(log
2
exp
4
|0
2/),()1,),(|(log)1,|(log
)1,0()(
2
2





























wwx
ww,x
w
w
w
w
wxwxw,x
wx
w
w







i
ii
i
ii
i
ii
i
ii
i
ii
φy
pyp
p
pLaplace
φyφyNyp
Nφy

以上、述べてきた線形回帰のよるモデル化は、
生成モデル
当然、線形の識別モデルもある。次以降は線
形識別モデルの話

線形識別
との領域の
境界面を線形関数
として求める

線形識別
 データ:
 xがいくつかのクラス（あるいはカテゴリー）：Cｋのどれか
に属する。
 例：新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラ
スのどれかに属する場合。この場合、データ：ｘは例えば、記事に
現れる単語の集合、など。
 データ：xがK個のクラスの各々に属するかどうかの判定
は（－１＝属さない，１＝属する）の２値を要素とするK次
元ベクトル：yi＝（-1,1,-1,..,1)で表される。
 ただし、１つのクラスに属するか属さないかだけを識別すの場合は
2クラス分類という。当然、 yi＝ー1 or yi ＝ 1
 この属するか否かの判断をする式が線形の場合を線形識
別という。
T
Mxxx ],,,[ 21 x

 線形識別の関数
一般化線形識別の関数は以下
 ２クラス分類
 クラスC１に属するかC2（＝notC1）に属するかは、次
の通り
 if y(x)≥0 then データ：ｘはC１に属する
otherwiseデータ：ｘはC2に属する
(すなわちC1に属さない）
wxx
w
w
x
x
wxx
~,~)(~,
1~
,)(
0
0














y
w
wy
とおくならあるいは
は非線形でもよいfwfy ),()( 0 wxx

2値分類の直観的説明
 y={-1,1}、xは2次元とする。（下図を参照）
 {y,x}を教師データとして、2乗誤差の最小化を行っ
て正規方程式を求めると、下図ののようなクラス
を分類する分離平面が得られる。
y=-1
y=１
x1
x2
境界面

線形識別関数の幾何学的解釈
x
xa
xb
w
xc
||||
)(
w
xy
||||
0
w
x
w
d


直交。すなわち識別境界線とは )(
)()()(0
0)(,0)( 00
ba
baba
bbaa
yy
wywy
xxw
wxxxx
wxxwxx



識別境界線
||||
||0||||||||||||
)(0
0
0
2
0
0
w
xwxwww
wx
wx
wxx
x
w
wcwc
c
wy
dd
T
T
d
d
dd
d



に代入して整理するとと書ける。これを上式
から、に並行で横ベクトルだは
とおく。の垂線の交点を原点から識別境界線へ
xd

線形識別関数の幾何学的解釈
x
w
xc
||||
)(
w
xy
r 
||||
0
w
w
識別境界線
||||
)(
0)(
||||)(
||||
)(
||||
00
0
w
x
x
wx
w
ww
wxwxx
w
w
w
xx
y
ry
ryrwwy
wr
c
c
T
T
c
T
c



だから
を足すとを掛け、から両辺の転置をとり、右
xa
xb
xd

wの計算方法:2クラス分類の場合
 .
 すると新規のデータ：xはが正ならクラス
C1に,負ならC２属する
 .
で書けるとするの境界がクラス wxx ~,~)(, 21 yCC
)~(xy
 



































wx
wx
WXY
x
x
X
x
~,~
~,~
~~
~
~
~
10,1
),1(,~
111
NN
T
N
T
nn
nn
y
y
yy
NnyN

なら　　ただしクラス１なら
があったとき個の教師データ

 すると、観測データ（教師データ）において個々のクラスに
分類されたか否かの観点からの２乗誤差は次式となる
 もう少し詳しく書くと
   YWXYWXW 
~~~~
)
~
(
T
E
   
 
   
　　
22
11
11
11
~,~~,~
~,~
~,~
~,~~,~
~~~~
NN
NN
NN
T
yy
y
y
yy















wxwx
wx
wx
wxwx
YWXYWX



 これを最小化するはで微分して０とおけ
ば、線形回帰のときと同様の計算により求まる。
 微分は次式：
   YWXYWXW 
~~~~
)
~
(
T
E
W
~
W
~
   
YXXXW
YWXX
W
W
TT
TE
~
)
~~
(
~
0
~~~
~
~
1




   YWXXYWXAA
W
A
W
AA





 ~~~
2
~~
2 T
TT

 新規のデータxnewに対する予測を行うy(xnew)も求ま
る。
YXXXxWx
x
x
xy
YXXXW
TT
newnew
newK
new
new
TT
y
y
~
)
~~
(~~~
)~(
)~(
)~(
~
)
~~
(
~
1
1
1
















y(xnew)が大きいほどクラス C1 に属する可能性が高い。

wの計算方法：多クラス分類の場合
 .
 すると新規のデータ：xはが最大のkのクラ
スCkに属する
 .
で書けるとする。が線形識別モデルクラス kkk yC wxx ~~)( 
)~(xky
  Wxwxwx
xxyx
~~~,~~,~
)]()([)(
1
1


K
T
Kk yyKy


　　　　　　　　　　　　　
個並べたベクトルを
 



































KNN
K
N
T
N
T
n
n
nn
K
K
NnN
wxwx
wxwx
WX
y
y
Y
x
x
X
y
x
yx
~,~~,~
~,~~,~
~~
~
~
~
)1,...,1,1,1(
~
),..,1(,~
1
11111




のような形。次元ベクトルは
らに属することもあるな個のクラス内の複数個は
注
があったとき個の教師データ

 すると、観測データ（教師データ）において個々のクラスに
分類されたか否かの観点からの２乗誤差は次式となる
 もう少し詳しく書くと
    YWXYWXW 
~~~~
)
~
(
T
TrE
   
    
   
   22
11
2
11
2
1111
11
111111
11
111111
~,~~,~
~,~~,~
~~~~
~,~~,~
~,~~,~
~,~~,~
~,~~~
~~~~
NKKNKK
NN
T
NKKNNN
KK
NKKNKK
NN
T
yy
yy
Tr
yy
yy
yy
yy





























wxwx
wxwx
YWXYWX
wxwx
wxwx
wxwx
wxwx
YWXYWX




 これを最小化するはで微分して０とおけ
ば、線形回帰のときと同様の計算により求まる。
 Trの微分は次式：
    YWXYWXW 
~~~~
)
~
(
T
TrE
W
~
W
~
   
YXXXW
YWXX
W
W
TT
TE
~
)
~~
(
~
0
~~~
~
~
1




   YWXXYWXAA
W
A
W
AA





 ~~~
2
~~
2
)( T
TT
Tr

 新規のデータxnewに対する予測を行うy(xnew)も求ま
る。
YXXXxWx
x
x
xy
YXXXW
TT
newnew
newK
new
new
TT
y
y
~
)
~~
(~~~
)~(
)~(
)~(
~
)
~~
(
~
1
1
1
















yi(xnew)が大きいほどそのクラス i に属する可能性が高い。
もちろん、 yi(xnew)が最大となるi のクラスに属すると考え
るのが自然。だが。。。

生成モデルを利用した識別
 識別はベイズ統計的には次式
 N個のデータ：xk（k=1,..,N)があるクラスに属するかど
うかの判定は（0＝属さない，１＝属する）の２値を要
素とするN個のK次元ベクトル：y＝（0,1,0,..,1)で表さ
れる。
以下のベイズ統計による分類では、属さない場合を-1では
なく０とすることに注意。
 以下ではベイズ統計による2クラス分類をする場合に
事後確率について考える。
)(
)()|(
)|(
x
x
x
p
CpCp
Cp kk
k 

Logistic sigmoid function
 クラスC1の事後分布は次式(s-1)
 
)1(
)exp(1
)exp(
)exp(1
1
)exp(1
)exp(
d
d
1
log)(1)(
)()|(
)()|(
log
functionsigmoidlogistc1)-(s-)(
)exp(1
1
)()|()()|(
)()|(
)|(
2
22
11
2211
11
1























a
a
aa
a
a
aaa
CpCp
CpCp
awhere
a
a
CpCpCpCp
CpCp
Cp
x
x
xx
x
x

クラスC1,C2が共分散∑が等しい2つの
正規分布の場合の事後確率 p(C1|x)
 式(s-1)によって以下のように導ける。
 
   
 
 
       
   
)(
)(
log
2
1
2
1
)(
)(
)(
log
2
1
2
1
)(
)(
log
2
1
2
1
||2log
||2log
)()|(
)()|(
log
2
1
exp
||
1
2
1
)|(
2
1
2
1
21
1
121
1
2
1
2
1
2
1
22
1
1
1
1
1
11
1
2
1
2
1
21
1
1
2
1
2
2
1
2
22
11
1
2
1
2
Cp
Cp
Cp
Cp
Cp
Cp
CpCp
CpCp
Cp
TTT
TTTTTT
TT
K
K
i
T
iKi

























 




 





















x
xxxx
xxxx
x
x
xxx
∑が2つのクラスで等しいことにとってキャンセルしてい
ることに注意。等しくないともう少し複雑。

クラスC1,C2が共分散∑が等しい2つの
正規分布の場合の事後確率 p(C1|x)
 
   
    
)(
)(
log
2
1
2
1
)(
exp1
1
)|(
)(
)(
log
2
1
2
1
)(
)()|(
)()|(
log
2
1
exp
||
1
2
1
)|(
2
1
2
1
21
1
10
21
1
0
01
2
1
2
1
21
1
121
1
22
11
1
2
1
2
Cp
Cp
w
where
w
wCp
Cp
Cp
CpCp
CpCp
Cp
TT
T
T
TTT
i
T
iKi






























w
xw
xwx
x
x
x
xxx
事後確率：
∑が2つのクラスで等しいことにとってキャンセルしている
ことに注意。等しくないともう少し複雑。

次に Maximum likelihood solution （つまりw,w0)を
求める。これによって、各クラスの事後確率が求まる
 ここで各クラスの事前確率が以下だったとする
 
 
     
  )10(,....,
1,|)1(,|),,,|(
,|)1()|()(),(
0
,|)|()(),(
1
1)()(
1
2
1
121
2222
2
1111
1
21








sttwhere
ntN
nt
Np
Nlikelihood
NCpCpCp
tC
NCpCpCp
tC
CpCp
T
N
n
N
n
n
nnn
nn
nnn
nn
t
xxt
xxx
x
xxx
x




う個あることを思い出そ観測データはは次式ここで
としに属するときが観測データ
としに属するときがこのとき観測データ

(s-10)のlogすなわち log likelihood function を最大化すること
が目標
まず、最大化するπを求める。
(s-10)のlogのπに関する部分は次式(s-20) logp (π)
 
に属するデータ数。はクラス
に属するデータ数。はクラス
22
11
21
11
1
1
1
0
)(log
)1log()1(log)(log
CN
CN
where
NN
N
N
N
t
N
p
ttp
N
n
n
N
n
nn














次に (s-10)の log を最大化する μ1 を求める。
(s-10)のlogのμ２に関する部分は次式(s-30) logp (μ1 )
   









N
n
nn
n
T
n
N
n
nn
N
n
n
t
N
p
tNtp
11
1
1
1
1
1
1
1
1
1
1
1
0
)(log
const
2
1
),|(log)(log
x
xxx




同様にしてμ１も求めると
   










N
n
nn
n
T
n
N
n
nn
N
n
n
t
N
p
tNtp
12
2
2
2
2
1
2
1
2
1
2
)1(
1
0
)(log
const
)1(
2
1
),|(log)1()(log
x
xxx





最後に (s-10)の log を最大化する精度行列 Λ＝∑－１（C1
とC2共分散）を求める。
(s-10)のlogの∑ に関する部分は次式(s-40) logp (∑ )
logp (Λ )をΛ で微分して０とおき、 (s-10)の log を最大化
するΛ ＝∑－１を求める。
まず第1項の微分は線形代数学の公式より
)40()(
2
||log
2
)())(1(
2
1
||log)1(
2
1
)()(
2
1
||log
2
1
)(log
22
11
11
11







sSTr
NN
tt
ttp
n
T
n
N
n
n
N
n
n
n
T
n
N
n
n
N
n
n



xx
xx
     
が対称が対称 1
11
)50(
22
||log
2







 s
NN
N T

T
Cn
nn
T
Cn
nn
NN
S
Ss
 


21
))((
1
))((
1
)40(
2211  xxxx
は次式の
次はTr(ΛS)をΛで微分して０とおき、 logp(Λ) を最大化するΛ を
求める。
T
Cn
nn
T
Cn
nn
T
NN
S
S
NNp
sSS
STr
 










21
))((
1
))((
1
0
22
)(log
)60(
)(
2211
1
1
 xxxx


このようにして、教師データ集合
{(xn,tn)n=1,..N}からμ1, μ2,Σ-1(＝Λ）,πが求まっ
たので、これらを用いて定義されるw,w0も求ま
る。
未知データxがクラスC1に属する確率は
なので、この分布を教師データから学習できた。
    












1
log
2
1
2
1
)(
exp1
1
)|(
2
1
21
1
10
21
1
0
01
TT
T
T
w
where
w
wCp
w
xw
xwx

2乗誤差最小化の線形識別の問題点
この領域の判断が
困難
この領域に青の
境界線が引っ張
られることあり。
そもそも、Yの値は正規分布を想定した理論なのに、｛0、1｝
の2値しかとらないとして2乗誤差最小化を当てはめたところ
に無理がある。

クラシックな機械学習の入門 3. 線形回帰および識別

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à クラシックな機械学習の入門 3. 線形回帰および識別

Similaire à クラシックな機械学習の入門 3. 線形回帰および識別 (10)

Plus de Hiroshi Nakagawa

Plus de Hiroshi Nakagawa (20)

クラシックな機械学習の入門 3. 線形回帰および識別