Contenu connexe
Similaire à PRML輪読#2 (20)
PRML輪読#2
- 2. 第⼆章 確率分布の概要
• 標本データから確率変数の確率分布を推定(密度推定)をする
– パラメトリック à 少数のパラメタによって確率分布が決定する
– ノンパラメトリック à 少数のパラメタでは確率分布が決定しない
• パラメトリックである場合
– パラメタさえ推定すれば良い
• 最尤推定
• ベイズ推定
– 重要な確率分布の性質を⽤いる
• 共役事前分布
• 指数型分布族
• ノンパラメトリックである場合
– ヒストグラム
– 最近傍
– カーネル密度推定
2
- 4. 2.1 ⼆値変数
• ベルヌーイ分布
– 例:コイン投げ
– 2値確率変数 𝑥 ∈ 0, 1 , 𝑝 𝑥 = 1|𝜇 = 𝜇
– 確率分布 𝐵𝑒𝑟𝑛 𝑥 𝜇 = 𝜇/(1 − 𝜇)34/
– 𝐸[𝑥] = 𝜇, 𝑣𝑎𝑟 𝑥 = 𝜇(1𝜇)
– 対数尤度関数
• ln 𝑝 𝐷 𝜇 ∝ ∑ 𝑥?? であるため、∑ 𝑥?? は⼗分統計量(確率分布の⼗分条件)
• 𝜇 について微分して解くと、𝜇 の最尤推定量がもとまる
– 𝜇 の最尤推定量
• サンプル平均
4
一つのパラメタ𝜇で決定している
たまたま3回中3回表が出た場合を考えると、最尤推定では「必ず表が出る」という推定結果になる
(過学習)。
𝜇 の事前分布を考えるベイズ推定を用いて常識的な結果を導く
- 6. 2.1.1 ベータ分布
• 最尤推定ではサンプル数が少ないと過学習を起こしやすいため、ベイズ主義
的に扱う
– パラメタ 𝜇 を確率変数と捉え、事前分布𝑝 𝜇 を導⼊する
– 妥当なモデル(*妥当性は場合によって検証する必要がある)を事前分布に採⽤する
– 共役性を持った関数を選択
• ベルヌーイ分布(⼆項分布)のパラメタ 𝜇 の事前分布に、ベータ分布を⽤い
る
– 𝜇A43(1−𝜇)B43 の部分がベルヌーイ分布(⼆項分布)と「共役」
– 事後分布 ∝ 尤度関数 × 事前分布 であるから、事後分布が尤度関数と同じ関数形
– 係数のガンマ関数によってベータ関数は正規化されている
6
- 7. 2.1.1 ベータ分布*
• ベータ分布
– 平均と分散
– a, bはハイパーパラメタ
• 有効観測数(事前に表がa回、裏がb回でたとするということ)と解釈できる
– 係数のガンマ関数でベータ関数は正規化されている
– ガンマ関数 Γ 𝑥 = ∫ 𝑢/43 𝑒4G 𝑑𝑢
I
J
• ガンマ関数は階乗の⼀般化
• 任意の整数nに対して、Γ 𝑛 + 1 = 𝑛!
7
- 9. 2.1.1 ベータ分布**
• 逐次学習
– 新たなサンプルが追加されることで尤度関数が更新し、事後分布が更新される
– 事後分布 ∝ 尤度関数 × 事前分布 を次のstepの事前分布とする
– 逐次学習は、データが独⽴同分布に従えば成⽴し、
• 全てのデータが揃う前に予測しなければならない
• ⼤規模データに対して、メモリを確保しなくて良い
といった利点がある
– 多くのデータを観測すればするほど事後分布の不確実性(分散)は恒常的に減少し、尤度
関数に収束する(*分散が単調に減少するとは限らないので注意)
9
× =
- 12. 2.3 ガウス分布
• 正規分布ともいう
• 多変量ガウス分布は、 𝜇, 𝜮 によって決まる
– 𝜇 : 平均ベクトル
– 𝜮 : 共分散⾏列
• エントロピーを最⼤化する分布(1.6節で⽰した)
• 中⼼極限定理より、複数の確率変数の和の確率分布はガウス分布に収束する
– 確率変数が互いに独⽴であること、リンデベルグ条件が成⽴すれば中⼼極限定理が成⽴
– 同⼀性の仮定がなくても成⽴する
12
- 13. 2.3 ガウス分布
– x に依存するのは、マハラノビス距離: ∆U= 𝒙 − 𝜇 W 𝜮 43(𝒙 − 𝜇)
– ∆U= ∑
XY
Z
[Y
]^3 と変形できる
– 𝑦]で構成されるベクトル𝒚は、𝒙 を線形変換(平⾏移動、回転)したもの
– ガウス分布が定義されるため(分布を正規化するため)には、𝜮 が正定値⾏列(*固有値が
全て正)である必要がある
– 𝐔 は直交⾏列なので、 𝒙 を正規直交座標に変換し、式(2.43)をD個の独⽴な1次元ガウ
ス分布の積で表すことができる
13
𝜮が対称行列であることが
重要
逆行列は反対称(正負が
ひっくり返って対称)
直交行列の性質:Uのn本の行(列)ベクトルが正規直交基底をなす
yが正規直交基底によって表現され、「確率変数が直交=独立」となった。
- 14. 2.3 ガウス分布
• ガウス分布の計算量の制約
– D次元のガウス分布は、
b(bcd)
U
のパラメタを持ち、計算量がO(𝐷U)
– 計算量を減らすために共分散⾏列𝜮 に制約を与える
– データの相関情報を失うことに注意
• ガウス分布の形状の制約
– 単峰形であるという条件があり、多峰形の分布を取り扱えない
– 潜在変数の導⼊などで対処
14
引⽤:https://www.slideshare.net/kurotaki_weblab/prml-28752844
- 15. 2.3.1 条件付きガウス分布
15
• 2つの確率変数集合の同時分布𝑝(𝒙 𝒂, 𝒙 𝒃)がガウス分布に従うとき、条件つき
分布𝑝(𝒙 𝒂|𝒙 𝒃)もガウス分布に従う
– 2.3.1はその証明
1. ガウス分布に従う確率変数 𝒙 を互いに素な2つの集合に分ける
2. それぞれの集合の平均ベクトルと共分散⾏列を定義する
3. 共分散⾏列の逆⾏列(精度⾏列)を計算する
4. 元のガウス分布の指数部分について、平均ベクトルと精度⾏列を⽤いてaとbの変数ごとに
分解する
5. 𝒙 𝒃 について分解した式を解釈すると、指数部分は2次形式になっているため、条件付き分
布もガウス分布に従う
– 平均と共分散
- 16. 2.3.1 周辺ガウス分布
16
• 2つの確率変数集合の同時分布𝑝(𝒙 𝒂, 𝒙 𝒃)がガウス分布に従うとき、周辺分布
𝑝(𝒙 𝒂), 𝑝(𝒙 𝒃)もガウス分布に従う
– 2.3.2はその証明
– 平均と共分散
• 条件付きガウス分布と周辺ガウス分布の解釈
– 条件付きガウス分布
• どのように同時分布の断⾯を切ってもガウス分布
– 周辺ガウス分布
• どちらも変数集合の周辺分布もガウス分布
• 条件付きガウス分布の命題よりもゆるい命題
- 18. 2.3.4 ガウス分布の最尤推定
• 多変量ガウス分布から標本𝑿 = 𝒙 𝟏, 𝒙 𝟐, 𝒙 𝟑, , , , 𝒙 𝑵 が得られた時、⺟集団の多
変量ガウス分布のパラメタを最尤推定で推定できる
– ⼗分推定量
• 最尤推定
– ラグランジュ未定乗数法など(*共分散⾏列の推定は対称性を仮定し、結果が実際に対象になっていることを
⽰すといったやり⽅が無難)
– 不偏推定の修正
18
- 27. 2.3.8 周期変数
• ガウス分布対して周期変数を導⼊する
• 周期変数の観測値の集合𝐷 = 𝜃3, 𝜃U, , , 𝜃x は、極座標表⽰できる
– 極座標表⽰することによって、統計量が原点の位置に依存しない
• フォン・ミーゼス分布
– 確率変数及び統計量を極座標表⽰することで、ガウス分布の周期変数への⼀般化を⾏う
– 𝜃J:分布の平均, m:集中度パラメタ(精度)
27
- 29. 2.4 指数型分布族
• 𝑥 上の指数型分布族
– 𝜂:分布の⾃然パラメタ
– 𝑥:ベクトルでもスカラーでも良い、離散でも連続でも良い
– 𝑔(𝜂): 正規化係数
• 指数型分布族の例
– ベルヌーイ分布
– 多項分布
– ガウス分布
29
- 30. 2.4.1 最尤推定と⼗分統計量
• モーメント
– 正規化条件
– 𝜼 について両辺の勾配を求めると
– 𝑢(𝑥)の期待値は𝑔(𝜂)のみに依存する
• 指数型分布族の分布を正規化できれば、その分布のn次モーメントは𝑔(𝜂)のn回微分で求めら
れる
• 最尤推定の解と⼗分統計量
– 最尤推定で求められた推定量 𝜂qr ∝ ∑ 𝒖(𝒙) であるから、 ∑ 𝒖(𝒙) のみでデータの性質を
表していると⾔える->⼗分推定量(データの性質の⼗分条件)
30
- 32. 2.5 ノンパラメトリック法
• パラメトリック法
– 少数のパラメタから確率変数の分布の形状を決定する
– あらかじめ確率分布の形状を仮定
– 仮定した分布が不適切な場合、予測性能が悪くなる
• ノンパラメトリック法
– 分布の形状が制限されず、データによって形状を決定する
– 分布の形状について僅かな家庭しかない
1. ヒストグラム密度推定法
• ⼀旦推定してしまえばデータを破棄できる->データが⼤規模な場合に有効
• 不連続性から応⽤には適さない
2. カーネル密度推定法
3. 最近傍法
32
- 33. 2.5 ノンパラメトリック法
• 近傍を考慮した密度推定
– あるD次元のユーグリッド空間中の未知の確率密度𝑝(𝑥)から、観測値の集合が得られて
いるとする。この集合から𝑝(𝑥)を推定する
– xを含むある⼩さな領域Rに割り当てられた確率Pは、
– Nが⼗分⼤きいとき、R内の総数Kは、
– また、Rが 𝑝(𝑥)がほぼ⼀定であるとするほどVが⼗分⼩さい時、
– よって、
– Kを固定しVを推定=>K近傍法
– Vを固定しKを推定=>カーネル密度推定法
33
- 35. 2.5.2 最近傍法
• カーネル密度推定法では、カーネル幅(h)が常に⼀定であるため、
– hが⼤きいと全体的に平坦化されてしまう
– hが⼩さいと全体的にノイズの多い推定になってします
• データ空間内の位置に応じてhを変化させる
• K近傍法
– 𝑝(𝑥)を推定したい点xを中⼼とした⼩球を考え、その半径を、k個のデータ点を含むまで
拡⼤する
– この時の体積をVとして𝑝 𝑥 =
P
x„
から密度推定
• K近傍法を⽤いてクラス分類をすることができる
– Xを中⼼に、K個の点を含む球を⾒つける
– 各クラスに対してベイズの定理を⽤いて、クラスに属する事後確率を求める
– 事後確率が最⼤のクラスに割り当てる
35
- 36. 参考資料
• パターン認識と機械学習 上
– C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監
訳), 村⽥ 昇 (監訳)
• PRML勉強会第3回 2章前半 2013/11/28(⿊滝, slideshare)
– https://www.slideshare.net/kurotaki_weblab/prml-28752844
• PRML上巻勉強会 at 東京⼤学 資料 第2章 2.3.3 〜 2.3.6 (加藤, SlideShare)
– https://www.slideshare.net/devkato/233-236-28911396
• Prml2.1 2.2,2.4-2.5 (Takuto Kimura, SlideShare)
– https://www.slideshare.net/TakutoKimura/prml21-222425
• [機械学習][PRML読書会] 第七回PRML勉強会Add Star(wilsonia)
– http://d.hatena.ne.jp/wilsonia/20080911/1221143648
• 初級Mathマニアの寝⾔[中⼼極限定理](ogyahogya)
– http://ogyahogya.hatenablog.com/entry/2014/10/23/%E4%B8%AD%E5%BF%83%
E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86
36