自然言語処理のための機械学習入門１章

自己紹介
ステータス
• @piroyoung a,k,a みずかみひろき
• 数学(ゲーム理論）
→ SPA企業の総合職（物流・小売）
→ データナントカ（コンサル）Now!
• 最近，渋谷が気になる
スキル・興味・近況
• R, SQL, Python, Ruby, Jags/Stan
• データマイニング屋
• NLPについては何も知らない
• Scala修行中
• 新しいものが好き
• Yo!! 始めました → PIROYOUNG
• LINEも始めました→ piroyoung
2

自然言語処理のための
機械学習入門
(たかむらぼん）
1章必要な数学的知識
NLPStudy #2
@piroyoung
みずかみ　ひろき

• 本発表の内容は，あくまでも私個人の見解であり，
所属する組織や団体とは一切関係がありません．
• それどころか大部分の情報源が「私の記憶」です．
記憶力には万全を機してはおりますが，もし間違い
などありましたら，こっそりご指摘いただければ幸
いです．

• 1.2 最適化問題
• 1.2.1 凸集合と凸関数
• 1.2.2 凸計画問題
今日やること
• 1.2.3 等式制約付き凸計画問題
• 1.2.4 不等式制約付き凸計画問題
• 1.3 確率
• 1.3.1 期待値平均分散
• 1.3.2 結合確率と条件付き確率
• 1.3.3 独立性
• 1.3.4 代表的な離散確率分布
• 1.4 連続確率変数
• 1.4.1 平均・分散
• 1.4.2 連続確率分布の例
• 1.5 パラメータ推定法
• 1.5.1 i.i.dと尤度
• 1.5.2 最尤推定
• 1.5.3 最大事後確率推定
• 1.6 情報理論
• 1.6.1 エントロピー
• 1.6.2 KL情報量
• 1.6.3 JS情報量
• 1.6.4 自己相互情報量
• 1.7 この章のまとめ

突然ですがアンケート
Q:最尤法を知っていますか？

突然ですがアンケート
Q：最尤法を知っていますか？
◾集計結果◾ ◾Yes以外：5％
◾Yes：％
950000 ⇥ 104

最尤法の解説
ゆーどかんすー！
✓
f(Y |✓)

最尤法の解説
ゆーどかんすー！さいゆーすいて一ち
f(Y |✓)
✓
★

再び突然ですがアンケート
Q:最尤法が理解できましたか？

再び突然ですがアンケート
Q：最尤法が理解できましたか？
◾Yes：100％
◾Yes以外：0％
◾集計結果◾

情報量のあれこれ
Kullback Leibler divergence (KL情報量）
• 事前分布　p(　·)の元での情報　Y　のKL情報量　D　KL　(Y　||　p(　·))を
DKL (Y ||p(·)) := Ep(·|Y )

log
p(·|Y )
p(·)

DKL (Y ||p(·)) := Ep(·|Y )

log
p(·|Y )
p(·)

DKL( || ) = p(Yes| ) log
p(Yes| )
p(Yes)
= log
1
0.95
= log 0.95 = 0.05129329 . . .
確率分布間の「遠さ」のようなもの！！
要するに・・・

DKL (Y ||p(·)) := Ep(·|Y )

log
p(·|Y )
p(·)

要するに当・・た・らずとも遠からず！！
DKL( || ) = p(Yes| ) log
p(Yes| )
p(Yes)
= log
1
0.95
= log 0.95 = 0.05129329 . . .
確率分布間の「遠さ」のようなもの！！

• 解析的な裏付け中心（☓ アルゴリズム）
• 「最適化問題」とは何かがわかる！
• 最適化問題の分類がわかる！！
• 凸性が嬉しくなる
• Lagrangeの未定乗数法
• KKT条件
本日のスコープ

1.2 最適化問題 #とは
1.2.1 凸集合と凸関数
1.2.2 凸計画問題
1.2.3 等式制約付き凸計画問題
1.2.4 不等式制約付き凸計画問題





輸送量xij




工場Fi
出荷上限fi
倉庫
wj 需要
輸送コスト単価cij
Wj





輸送量xij




工場Fi
出荷上限fi
：ちゃんと持ってこいよ！
Wj
倉庫
wj 需要
X
i
xij = wj
Wj





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
xij = wj
：俺にも限界がある
Wj
Fi
X
j
xij  fi





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
xij = wj
Wj
Fi
X
j
xij  fi
僕：いくらかかかるの？
f(x) =
X
i
X
j
cijxij





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
xij = wj
Wj
Fi
X
j
xij  fi
f(x) =
X
i
X
j
cijxij
僕：やすくせえよ！！





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
xij = wj
Wj
Fi
X
j
xij  fi
f(x) =
X
i
X
j
cijxij
最小化問題！！





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
xij = wj
Wj
Fi
X
j
xij  fi
f(x) =
目的関数
X
i
X
j
cijxij





輸送量xij




工場Fi
出荷上限fi
Wj
倉庫
wj 需要
X
i
制約条件
xij = wj
Wj
Fi
X
j
xij  fi
f(x) =
目的関数
X
i
X
j
cijxij

・このことを一般にこう書く
最適化問題
Minimize : f(x)
subject to : x 2 S
・この問題設定は珍しくない．
制約付き線形回帰
Minimize :
kY − bXk2
subject to :
bi 0
f(x)
x 2 S
S
▶目的関数
▶許容解・実行可能解
▶実行可能領域
x⇤s.t.f(x⇤) = min
▶最適解
x2S
f(x)
• 最大化の問題は最小化問題に帰
着させられる．

・このことを一般にこう書く
最適化問題
Minimize : f(x)
subject to : x 2 S
・この問題設定は珍しくない．
制約付き線形回帰
Minimize :
kY − bXk2
subject to :
bi 0
• 最尤法
▶尤度の最大化
• サポートベクターマシーン
▶マージンの最大化
• 線形回帰
▶2乗誤差の最小化
• 金融
▶リスクの最小化
▶期待利得の最大化
• 製造業
▶コストの最小化
▶利益の最大化

最適化問題• 一般の場合
Minimize : f(x)
subject to : x 2 S
▶非線形最適化
• かつ凸
▶凸計画
• かつ線形
▶線形計画
▶一般の関数
▶一般の集合
▶凸関数
▶凸集合
▶1次関数
▶多面体
f
S
f
S
f
S

最適化問題• 一般の場合
Minimize : f(x)
subject to : x 2 S
▶非線形最適化
• かつ凸
▶凸計画
• かつ線形
▶線形計画
▶一般の関数
▶一般の集合
▶凸関数
▶凸集合
▶1次関数
▶多面体
f
S
f
S
f
S
今回！！

• 凸集合とは「へこみ」が無い集合▶凸でない集合
▶凸集合
S ⇢ Rn が凸集合
def , 8x, y 2 S
8 2 [0, 1]
に対して次が成り立つ
x + (1 − )y 2 S

• 凸集合とは「へこみ」が無い集合
S ⇢ Rn が凸集合
def , 8x, y 2 S
8 2 [0, 1]
に対して次が成り立つ
x + (1 − )y 2 S
▶エピグラフ
• エピグラフ
epif = {(x, y) 2 Rn+1|y f(x), x 2 Rn}
なる領域 epif を関数 f
のエピグラフという．

• 凸関数は凹みがない関数
f : R ! Rn が凸関数
def , epif が凸集合
• 凸関数の凸集合上での極小解は
最小解（最適解）
• の補集合が凸な時はその
関数を凹関数という．
epif epif
• 極値を持つ凸関数 is 狭義凸関数

• 凸計画問題• この手の問題は結局のところ極値
を探す問題になる．
• ご想像の通り線形計画問題は凸計
画問題
• 凸計画問題は非線形計画問題
最適化問題
Minimize : f(x)
subject to : x 2 S
において
が凸関数
が凸集合
f(x)
S
なる最適化問題を凸計画問題という

• 一般の制約がない場合• この手の問題は結局のところ極値
Minimize : f(x)
x⇤ が最適解であるための．．
rf(x⇤) = 0
r2f(x⇤)
r2f(x⇤)
▶1次必要条件 = 極値
：半正定値行列
：正定値行列
▶2次必要条件 = 凸関数
▶2次十分条件 = 狭義凸関数
r※ rf(x⇤)：勾配ベクトル2f(x⇤) ：ヘッセ行列

• 一般の制約がない場合• この手の問題は結局のところ極値
Minimize : f(x)
x⇤ が最適解であるための．．
rf(x⇤) = 0
r2f(x⇤)
r2f(x⇤)
▶1次必要条件 = 極値
：半正定値行列
：正定値行列
▶2次必要条件 = 凸関数
凸計画では1次だけ見れば良い！
▶2次十分条件 = 狭義凸関数
r※ rf(x⇤)：勾配ベクトル2f(x⇤) ：ヘッセ行列

• 等式制約付き凸計画
Minimize : f(x)
subject to : gi(x) = 0
f(x)
f(x) x⇤
• が極値をとるが許容解とは限らない！
• このとき1次の必要条件に変わるものは？？
rf(x⇤) = 0

rg(x⇤) と r f ( x ⇤ ) が一次従属になっている

Minimize : f(x)
• 先の図を一般的に・・・
9i 2 R s.t. rf(x⇤) =
X
i
irgi(x⇤)
▶1次必要条件：下記を満たすが存在する.

Minimize : f(x)
9i 2 R s.t. rf(x⇤) =
X
i
irgi(x⇤)
• ↑の x⇤
の探し方として．．．
L(x, ) := f(x⇤)
X
i
igi(x⇤)
なる関数において下記の解は1次必要条件を満たす！
!
!x
L(x⇤, ⇤) = 0
!
!
L(x⇤, ⇤) = 0

Minimize : f(x)
9i 2 R s.t. rf(x⇤) =
X
i
irgi(x⇤)
• ↑の x⇤
の探し方として．．．
L(x, ) := f(x⇤)
X
i
igi(x⇤)
Lagrangeの未定乗数法
なる関数において下記の解は1次必要条件を満たす！
!
!x
L(x⇤, ⇤) = 0
!
!
L(x⇤, ⇤) = 0

• 不等式制約付き凸計画
Minimize : f(x)
hj(x)  0
• 不等式制約を考慮する最適化問題
hj(x)  0
• このとき1次の必要条件 r f ( x ⇤ ) = 0 に変わるものは？？

• 有効な制約
点 x 2 R n で制約 h k ( x )  0 が有効である．
def , hk(x) = 0
Minimize : f(x)
hj(x)  0
▶有効な制約のみで未定乗数法を適用すればよい！

• KKT条件
Minimize : f(x)
hj(x)  0
x ⇤ 2 R が最適解であるとする．
このとき g i 及びがある条件を満たせば
hj
rf(x⇤) = irgi(x⇤) + μjrhj(x⇤)
gi(x⇤) = 0
hj(x⇤)  0, μj 0, μjhj(x⇤) = 0
なる 2 R m 及び μ 2 R l が存在する．
▶制約想定
▶相補性条件

まとめ
制約なし制約あり
1次の必要条件KKT条件
2次の必要条件が半正定値
Lagrange関数の
ちょめちょめ
2次の十分条件正定値
Lagrange関数の
ちょめちょめ
rf(x⇤) = 0
r2f(x⇤)
r2f(x⇤)

まとめ
制約なし制約あり
1次の必要条件KKT条件
2次の必要条件が半正定値
Lagrange関数の
Hessianが半正定値
凸計画では1次の必要条件だけみてればいい
2次の十分条件正定値
Lagrange関数の
Hessianが正定値
rf(x⇤) = 0
r2f(x⇤)
r2f(x⇤)

もっと知りたい方へ
• KKT条件
• Fakasの補題（二者択一の定理）
• 強分離定理（凸解析の話題）
• ハーン・バナッハの定理（関数解析）
• Lagrangeの未定乗数法
• 陰関数の定理

参考文献
• 本日の教材はこの本の１章
• ２章の
「文書および単語の数学的表現」
• はめっちゃバイブル
• 次回発表楽しみにしています．

参考文献
• 薄い本
• その割に実例のってる．
• コンパクトに要点がまとまっていま
す．

参考文献
• 理論とアルゴリズムのバランスがい
い感じ．
• しかも薄い．

参考文献
• そこそこ重い
• 質量が大きい
• 内容が濃い
• アルゴリズムより
• 私が学生のときはこんな本なかった！
• 最適化版PRML！？

自然言語処理のための機械学習入門１章

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à 自然言語処理のための機械学習入門１章

Similaire à 自然言語処理のための機械学習入門１章 (20)

自然言語処理のための機械学習入門１章