Prml5 62. 混合密度ネットワークとは?
● ネットワークモデルを関数として考え、最尤推定の枠
組みでネットワークパラメタを決定する問題(ここまで
がニューラルネットワーク)におけるニューラルネット
ワークモデルへの拡張の一つ
● 条件付き確率分布をモデル化するための枠組み
● tの分布を表すパラメトリックな混合モデルを考えて
一般的な条件付き確率密度p(t|x)を表現する手法
● そのパラメタはxを入力ベクトルとして取るニューラル
ネットワークの出力から定める
3. 概要
●
5.6では解が複数存在する問題への対処法
について考える
● 5.6の流れ
● 解が複数存在する問題(逆問題)
● 解が複数存在する問題の解決
– 混合密度ネットワークの特徴
– アプローチ(混合密度ネットワークの利用)
– 解析(混合密度ネットワークの出力)
– 解析(混合密度ネットワークの最適化)
– 適用(単純な問題で混合ネットワークを使って解を求めてみる)
4. 解が複数存在する問題
● 逆問題
● 分布が多峰性(multimodality)を持つ問題
– そこそこよい解をいろいろ探し出す!!
● 例1:ロボットアーム(図5.18 目的の終端位置を達成する関節
角を求める)
– 「肘を上にした」状態と「肘を下にした」状態の2つの解
● 例2:多峰性を容易に可視化できる単純な(あまり面白味のない)問題(図
5.19 2層ニューラルネットのフィッティング)
– XとYを入れ替えただけで多峰性によりフィッティングが失敗
– 逆問題(高度な非ガウス性質を持つ)に対しては、通常のニューラ
ルネットワークは非常に貧弱なモデル (予測精度が低い)
5. 解が複数存在する問題の解決[1/5]
●
混合密度ネットワークの特徴
●
条件付き密度をガウス混合分布でモデル化
●
混合比、期待値、分散を入力xの関数としてニュー
ラルネットワークで学習
●
推定精度は良いが、局所解があるため、信頼性が低
く学習に時間がかかる
●
混合係数をxの関数とすることで解決
●
構成要素の密度と混合係数をニューラルネットワー
クの隠れユニットで共有できる
6. 解が複数存在する問題の解決[2/5]
●
アプローチ(混合密度ネットワークの利用)
●
条件付き確率分布をモデル化するための枠組み
●
p(t|x)に混合モデル(2.3.9)を用いることで実現
– 与えられたどんなxに対してもp(t|x)モデル化のための枠
組みを提供(詳細は9章および14.5?)
●
混合密度ネットワーク(mixture density network)
を構築 混合係数 平均 分散
K
2
p t | x = ∑ k x N t |μ k x , σ x I
k
(5.148)式
k=1
↑の混合係数・平均・分散という3つのパラメタが入力xへの出力
※それぞれ(5.150式),(5.151式),(5.152式)
7. 解が複数存在する問題の解決[3/5]
●
解析(混合密度ネットワークの出力)
●
混合係数
– (5.149)式を満たす制約充足問題に帰着(P.109参照)
– ソフトマックス関数を用いて(5.150)式が得られる
●
平均
– ネットワークの出力(K×L個の出力)より(5.152)式が得ら
れる
●
分散
– ネットワークの出力の指数関数(カーネルの幅)より
(5.151)式が得られる
8. 解が複数存在する問題の解決[4/5]
●
解析(混合密度ネットワークの最適化)
●
ニューラルネットワークの重みとバイアスのベクト
ルwの2つのパラメータ(の最適な値)を求める
●
尤度を最大化=負の対数尤度として定義される誤
差関数を最小化することで定まる
– 混合係数を決めるネットワークの出力・各要素の平均を
決める出力・各要素の分散を決める出力それぞれに関す
る偏微分を求める((5.155)式~(5.157)式)
●
計算量:L→(L+2)K
9. 解が複数存在する問題の解決[5/5]
● 適用(図5.19の問題(多峰性を容易に可視化できる単純な問題)で
混合ネットワークを使って解を求めてみる)
● 与えられた任意の入力ベクトルの値に対する目標デー
タの条件付き密度関数が予測可能
● 平均の導出→(5.158)式
– しかし平均は解にならない(ロボットアームの例)
● 分散の導出→(5.160)式
● しかし、単純な解析解は持たない(数値反復法で地道に計算)
● 混合係数が最大の要素の平均をとるという方策(図5/21(d))
10. まとめ
●
分布が多峰性を持つ問題に対応
●
混合係数と各要素密度のすべてのパラメータ予
測に同一の関数を利用
●
非線形隠れユニットは入力に依存される関数により
共有される
– これが混合密度ネットワークの利点であり、混合エキス
パートモデル(14.5.3)との違い
●
単純な解析解を持たない
●
推定精度は良いが局所解があるため、信頼性が低く
学習に時間がかかる?
11. 参考資料
● 多目的最適化と多峰性の複数の解を求める違い
● http://www.furuta-lab.jp/member/kamechan/index.php?%E5%A4%9A%E7%9B%AE%E7%9A
%84%E6%9C%80%E9%81%A9%E5%8C%96%E3%81%A8%E5%A4%9A
%E5%B3%B0%E6%80%A7%E3%81%AE%E8%A4%87%E6%95%B0%E3%81%AE
%E8%A7%A3%E3%82%92%E6%B1%82%E3%82%81%E3%82%8B%E9%81%95%E3%81%84
● 14.5条件付き混同モデルの解説資料(tsubosaka氏)
● http://www.slideshare.net/tsubosaka/prml14-5#btnNext
● sage/PRML - 混合密度ネットワーク
● http://www.pwv.co.jp/~take/TakeWiki/index.php?sage%2FPRML%20-%20%E6%B7%B7%E5%90%8
● 第5章要約資料(kisa12012氏)
● http://www.slideshare.net/kisa12012/prml5-4697969#btnNext
● 条件付き確率推定(東京工業大学 杉山将教授(PRML翻訳者の一人)) ※スライド20
● sugiyama-www.cs.titech.ac.jp/.../Canon-MachineLearning15-jp.pdf