Prml9
- 3. はじめに:
効率的な学習のためにはデータの次元が小さいほうがよい。そこで重要な情報を持
つ部分空間に縮約する手法の一つが主成分分析である。
1 部分空間
V : d-次元ベクトル空間、⃗x1, · · · , ⃗xr ∈ V, (r < d)のとき
W := {a1 ⃗x1 + · · · + ar ⃗xr : ai ∈ R, i = 1, · · · , r}
はV の部分空間になる。また ⃗x1, · · · , ⃗xr が一次独立なときW はV のr 次元部分空間
である。
命題 1.1. V の部分集合W がV の部分空間であるときの必要十分条件は
W ̸= ϕ
⃗x, ⃗y ∈ W ⇒ ⃗x + ⃗y ∈ W
⃗x ∈ W, λ ∈ R ⇒ λ⃗x ∈ W
である。
3
- 4. 定義 1.2. (V, ·) : d-次元内積空間、V の部分空間S に対し
S⊥
:= {⃗y ∈ V : ⃗x ∈ S ⇒ ⃗x⊥⃗y}
のことをS の直交補空間という。
事実 1.3.
V = S + S⊥
命題 1.4. (V, ·) : d-次元内積空間、V の部分空間S, S⊥
に対し
S ∩ S⊥
=
{
⃗0
}
が成り立つ。
[証明]
⃗x ∈ S ∩ S⊥
⇒ ⃗x · ⃗x = 0 ⇒ ⃗x = ⃗0
4
- 5. 命題 1.5. (Gram-Schmidtの直交化法)
(V, ·) : d-次元内積空間、⃗x1, · · · ,⃗xd ∈ V,が一次独立なとき
⃗n1 :=
1
∥⃗x1∥
⃗x1,⃗˜ni := ⃗xi −
i−1∑
k=1
(⃗xi · ⃗nk)⃗nk,⃗ni :=
1
∥⃗˜ni∥
⃗˜ni
とすると、⃗n1, · · · ,⃗nd は正規直交基底となる。つまり⃗ni · ⃗nj = δi,j。但し∥ · ∥は内積
から自然に定義されるノルム。
系 1.6. (QR分解)rij := ⃗xj · ⃗ni, Q := (⃗n1⃗n2 · · ·⃗nm)とすると
∀X ∈ GLmR, ∃Q ∈ Om, ∃R : 上三角行列s.t.
X = QR
と分解できる。
5
- 6. 2 主成分分析
主成分分析· · · 学習データの分散が最大になる方向への線形変換を求める手法。主
成分は、共分散行列に対する固有値分解によって得ることができる。
主成分分析の流れ
• 共分散行列を定義する。
• 射影する係数ベクトルを考える。
• 分散が一番大きくなる方向を探す。
定義 2.1. (平均ベクトル)
学習データ⃗xi = (xi1, · · · , xid)T
∈ Rd
(i = 1, 2, · · · N)、に対し平均ベクトル⃗µは
⃗µ :=
1
N
N∑
i=1
⃗xi
で定義される。
6
- 7. 定義 2.2. (共分散行列)
学習データ⃗xi = (xi1, · · · , xid)T
∈ Rd
、
データ行列 X = (⃗x1, · · · ,⃗xN)T
∈ M (d, N; R) に対し共分散行列は
Σ = V ar
{
¯X
}
:=
1
N
¯XT ¯X
で定義される。
ただし
¯X := (⃗x1 − ⃗µ, · · · ,⃗xN − ⃗µ)T
である。
7
- 8. 係数ベクトル⃗aj を用いて線形変換をし、そのベクトルを⃗sj とする。変換後の分散
は次のように計算される。
命題 2.3. 係数ベクトル⃗aj := (aj1, · · · , ajd)T
∈ Rd
に対し変換後のデータ ⃗sj := ¯X⃗aj =
(s1j, · · · , sNj)T
とすると
V ar {⃗sj} = ⃗aT
j V ar
{
¯X
}
⃗aj
となる。
[証明] s1j, · · · , sNj の平均が0になる
(∑N
k=1 skj =
∑N
k=1
(
⃗xk − ⃗¯x
)
· ⃗aj = 0
)
ので、
V ar {⃗sj} =
1
N
⃗sT
j ⃗sj =
1
N
(
¯X ⃗aj
)T (
¯X ⃗aj
)
= ⃗aj
T
V ar
{
¯X
}
⃗aj
8
- 9. 定義 2.4. ⃗aj ∈ Rd
に対してLagrange関数E (⃗aj)を定義する。
E (⃗aj) := ⃗aT
j V ar
{
¯X
}
⃗aj − λ
(
⃗aT
j ⃗aj − 1
)
.
ただしλはLagrangeの未定乗数である。
このLagrange関数E (⃗aj)を最大にする⃗ai を見つけることを考える。E (⃗aj)を⃗aj で微
分(実函数のベクトルによる微分は教科書の付録参照)すると、
∂E (⃗aj)
∂⃗aj
= 2V ar
{
¯X
}
⃗aj − 2λi⃗aj
となる。つまり分散の臨界点において
V ar
{
¯X
}
⃗aj = λi⃗aj
が成立している。これはLagrange関数の臨界点は固有値問題によって求められるこ
とを意味する。
9
- 10. 命題 2.5. 実対称行列の固有ベクトルは互いに直行し、そのノルムは1である。
つまりY ∈ MnR,⃗ai ∈ Rn
Y T
= Y, Y ⃗ai = λi⃗ai ⇒ ⃗aT
k⃗al = δkl
[証明]
(Y ⃗ak)T
⃗al = (λk ⃗ak)T
⃗al = λk ⃗ak
T
⃗al = ⃗ak
T
Y T
⃗al = λl ⃗ak
T
⃗al
つまり
(λk − λl) ⃗ak
T
⃗al = 0
これはLagrange関数の臨界点において、そのノルムは1であり分散とLagrange関数
が一致することを示している。
10
- 11. 定義 2.6. λ1 ≥ · · · ≥ λd となるように順番を付け、対応する固有ベクトルを⃗a1 · · ·⃗ad
とする。⃗ak で線形変換された特徴量を第k主成分という。
命題 2.7. ⃗si の分散はλi と一致する。
V ar {⃗si} = λi
[証明]
V ar {⃗si} = ⃗aT
i V ar
{
¯X
}
⃗ai = λi⃗aT
i ⃗ai = λi
系 2.8. V ar {⃗s1}は最大固有値に一致する。
11
- 13. 3 特異値分解
Gram-Schmidtの正規直交基底を得るためのQR分解に対して主成分分解には特異値
分解が対応する。
命題 3.1. (特異値分解の存在)∀X ∈ M (n, p; R) , ∃U ∈ On, V ∈ Op s.t.
X = UΛV T
= (⃗u1, · · · , ⃗un)
√
λ1 0 · · · 0 0 · · · 0
0
√
λ2 · · · 0 0 · · · 0
... ... ... ... 0 · · · 0
0 0 · · ·
√
λr 0 · · · 0
0 0 · · · 0 0 · · · 0
... ... ... ... ... ... ...
0 0 · · · 0 0 · · · 0
⃗v1
T
⃗v2
T
...
⃗vp
T
但しr := rank
(
XXT
)
, λ1, · · · , λp はXXT
の固有値となる。
[証明] ⃗v1 · · · ⃗vr をXXT
の固有ベクトルとし、⃗v1 · · ·⃗vmax(p,n) をお互いに直交するよ
13
- 14. うにとる。また
⃗ui :=
1
∥X⃗vi∥
X⃗vi =
1
√
λi
X⃗vi
Λ :=
√
λ1 0 · · · 0 0 · · · 0
0
√
λ2 · · · 0 0 · · · 0
... ... ... ... 0 · · · 0
0 0 · · ·
√
λr 0 · · · 0
0 0 · · · 0 0 · · · 0
... ... ... ... ... ... ...
0 0 · · · 0 0 · · · 0
と定義する。すると、
XV = (X⃗v1 · · · X⃗vp) =
(√
λ1⃗u1 · · ·
√
λr⃗ur
⃗0 · · ·⃗0
)
= UΛ
また
∥X⃗vi∥2
= (X⃗vi)T
X⃗vi = λi.
14
- 15. 以下、教科書に合わせr=pとする。ここでも同様に ⃗v1 で線形変換したベクトルを考
える。(ただしλ1 ≥ · · · ≥ λp となるように順番を付ける)すると同様に
V ar {X⃗v1} = λ1
となる。Λq :=
√
λ1 0 · · · 0 0 · · · 0
0
√
λ2 · · · 0 0 · · · 0
... ... ... ... 0 · · · 0
0 0 · · ·
√
λq 0 · · · 0
0 0 · · · 0 0 · · · 0
... ... ... ... ... ... ...
0 0 · · · 0 0 · · · 0
と定義する。(ただしq ≤ p)すると
˜X := UΛqV T
がXのランクqの最小誤差という意味での最良近似といえる。
15
- 16. 参考文献
[1] 平井 有三.(2012).はじめてのパターン認識 .森北出版.
[2] 茂木 勇, 横手 一郎.(1996).線形代数の基礎.裳華房.
[3] 宮岡 悦良・眞田 克典.(2007).応用線形代数.共立出版.
[4] 古田 孝之.(2001). 線形作用素への誘い―行列からヒルベルト空間上の有界線形
作用素へ.培風館.
16