SlideShare a Scribd company logo
1 of 29
Download to read offline
岩波データサイエンス Vol.5
[特集]スパースモデリングと多変量
データ解析
伊庭「モデル選択超速習」
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 1
はじめに
• 本資料・勉強会の目的
– X:分かっている人が分からない人に教える
– ○:
• 分からない(知らなかった)人が、分からないなりに勉強し、
整理してみる
• 同じような⽴場・思いの人と、ともに学ぶ“材料”
• ⇒間違いの訂正、補⾜、ご意⾒・コメント等々を
ぜひよろしくお願いします。
2017/4/10 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 2
この本
• 岩波データサイエンス Vol.5
• [特集]
スパースモデリングと多変量
データ解析
– 岩波データサイエンス刊⾏委
員会 編
– 2017年2⽉刊⾏
– 岩波書店
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 3
目次
• 特集「スパースモデリングと多変量
データ解析」
• 池田・伊庭・麻生
<基礎編>
• モデル選択超速習
– AICからスパースまで
• 伊庭幸人
• スパース性を用いた推定
• 池田思朗
• スパースモデリングを体験してみる
• 岩波データサイエンス刊⾏委員会
<展開編>
• 依存関係にスパース性を入れる
– グラフィカルlassoの話
• 井手剛
• 画像処理とスパース
• 本谷秀堅
• 時間遷移のスパース性
– マーケットシェアの遷移を捉える
スパースグラフモデリング
• 日野英逸
<応用編>
• ⾏列データの分解
• 麻生英樹
– <コラム>⾏列のトレースノルム
– 麻生英樹
• ⾏列分解をリコメンデーションに活かす
– Rによる実践例
• 尾崎隆
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 4
伊庭「モデル選択超速習」
• (副題:AICからスパースまで)
• (導入部分)
• “スパース以前”のモデル選択をめぐる諸問題、“前座”
• ⇒スパースモデリングの位置付け
• (はじめからメインディッシュに⾏きたい⽅は、本特集の池田の解説から
読み始めても、ほぼ問題なく読める)
» ⇒ 「最尤法やベイズには馴染みがないが、重回帰分析は使ったことが
ある」という読者にはむしろ分かりやすいかも
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 5
伊庭「モデル選択超速習」
:本解説の構造
• <問題の整理>より
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 6
伊庭「モデル選択超速習」
:本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 7
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
◎
伊庭「モデル選択超速習」
:本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 8
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか?
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決
伊庭「モデル選択超速習」
• <問題の整理>
• 「スパースモデリング」、大雑把にいうと、、、
– “与えられたデータに応じて、統計モデルの必要な部分を自動的に抽出
する技術”
– 重回帰分析では、、、
→ 多数の説明変数のリストから少数の必要なものを取り出す
– 昔からある⾔葉 ・・・ 「モデル選択」、「変数選択」
» (これらの用語の使い分けにはいろいろ流儀がありそうだが・・)
– この解説の中での呼び分け
• 変数選択/モデル選択:複数のモデルの当てはめ ⇒ その中から選ぶ
• スパースモデリング:
罰則項を加えて推定 ⇒ パラメータ推定+パラメータ数の削減 を同時に
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 9
伊庭「モデル選択超速習」
• <問題の整理>(続き)(再掲)
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 10
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
• “変数が少ない”モデル →(⾔い換え)→ “単純な”モデル
» (※サポートページの記述参照)
» 重要なのは、“変数の数”より“未知パラメータの個数”
(回帰分析でいえば、
説明変数の係数のうちデータから推定するものの個数)
• 「予測」、「汎化」の視点
» 現代データサイエンスでは非常に重要
» AIC, CV(※いずれも後述)も「予測を目的とする」ことが大前提
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 11
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
– 簡単な例:多項式回帰の次数選択
• モデルの当てはまり
– 「与えられたデータへの当てはまり」からは
「説明変数が少ないほうがよい」ということは出てこない
• 予測性能
– 「予測」を考えると話が違ってくる
» サンプルサイズ N が小さいときは、複雑なモデル(2)は、単純
なモデル(3)よりも予測性能が悪く、訓練データに当てはめた結
果と真の値との差をあらわす2乗和が大きくなる。
» N が大きくなると、あるところで「逆転」が起きて、複雑なモデル
(2)のほうが単純なモデル(3)より予測性能が良くなる。
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 12
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
• ⇒おおまかにいって、サンプルサイズ N が小さいと
きには単純なモデルのほうが強いのだ
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 13
(本文 p.8 より)
伊庭「モデル選択超速習」
• <bias-variance dilemma>
• 前節の議論の重要な点
• 「真の曲線」が2次式の場合でも、より単純な1次式の⽅が良い場
合があること
– N が小さいとき = N が有限のとき
• ⇒ 重回帰分析の変数選択でも、似た状況が起きる
• 直観的な説明
• サンプルサイズ N が有限の場合、
• ⇒ 当てはめた , などのパラメータ推定値は、
サンプルに依存して真の値のまわりでばらつく
• ⇒ パラメータの数が多いほどばらつきが大きくなる
• ⇒ 予測性能の低下
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 14
伊庭「モデル選択超速習」
• <bias-variance dilemma>
• bias-variance dilemma
– bias (バイアス)
– モデルによる推定値の平均と真の値との差を表す量
– 「データを無理やり⾃分の型にはめ込んで歪める効果」
– variance (バリアンス)
– サンプルに依存した真の値の周りでの
「ばらつきの効果」
– dilemma (or trade-off)
• モデルが複雑なほど・・・
• ⇒ バイアス:小、バリアンス:大
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 15(本文 p.10 より)
伊庭「モデル選択超速習」
• <CV と AIC>
• 真のモデルなしで「予測の良さ」をどう⾒積もるか?
• 実際のデータ解析では
「真のモデル」がわかっているわけではない
• 「真のモデル」がわかっていない中で、前述の考え⽅で
「予測の良さ」を⾒積もる手段が必要
• ⇒ 従来、よく用いられた“手段・規準”
・・・ CV(Cross Validation; 交差検証法)と AIC
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 16
伊庭「モデル選択超速習」
• <CV と AIC>
• CV (Cross Validation; 交差検証法)
• 「訓練データ」で学習、「テストデータ」で予測の良さを推定
• 「精度を上げるためにいろいろな分け⽅をして、
その平均を計算することがよく⾏われる」
– 「精度を上げるため」?
» X:“モデルの精度”を上げるため
» ○:“「予測の良さ」の⾒積もりの精度”を上げるため
– 「いろいろな分け⽅」
» 訓練データ&テストデータの分け⽅複数 ⇒ 平均 ⇒ 精度up
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 17
伊庭「モデル選択超速習」
• <CV と AIC>
• CV (Cross Validation; 交差検証法)
– いろいろな⽅法
• leave-p-out cross validation
• K-fold cross validation
– CV の評価基準
• 回帰問題 ・・・ 対数尤度 等
• 分類問題 ・・・ 誤判別率 等
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 18
伊庭「モデル選択超速習」
• <CV と AIC>
• CV と AIC の間の“関係”
– モデルが真の分布を含むとして、以下が成り⽴つ場合、
– モデルの当てはめを最尤法で⾏う
– 予測の良さの評価を対数尤度で⾏う
⇒ CV(CV損失) と AIC は漸近的に等価
– = (−2) log − ・・・ CV損失は [] の中に漸近する
• AIC や Cp 規準は先駆的だった
• モデル選択に使われる各種規準 (CV, AIC, Cp 以外には・・・)
– GIC, EIC, WAIC, DIC, BIC, MDL, 等々
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 19
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 重回帰分析における変数選択
• 変数候補 M 個 ⇒ 組み合わせ 2M 個 (“爆発”)
• こうした場合、
たとえば、AIC を使って⾃動的に変数選択をやろうと思っても、
課題・問題が生じてくる
• 変数選択の問題点 (例:AICを使った変数選択)
– 「多重性の効果をどう取り入れるか」
– (〜 冒頭の2. “数理的表現”に関連)
– AIC は訓練データに依存する確率変数 → 多重性の問題
– ⇒次頁へ
– 「最適なモデルの探索をどう実装するか」
– (〜 冒頭の3. “アルゴリズム”に関連)
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 20
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 「多重性の効果をどう取り入れるか」
• AIC は、それ⾃身が訓練データに依存する確率変数
» ⇒ 平均対数尤度の期待値のまわりでランダムに変動・ばらつく
» ⇒ 多重性の問題が発生 (※統計的検定の多重性と同様)
• 多重性を考慮に入れた手法も考案されているが、、、まだ一般的でない
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 21
データ
(⺟集団) データ1
モデルm1 モデルm2 モデルm3 モデルm4 モデルm5
データ2
AIC
• 説明変数 m 個のモデル集合 Ωm
• m は 大き過ぎる → 予測性能“悪”
• m は 候補総数 M より十分小さい
…
• Ωm のモデルの予測性能(→AICで評価)
は、平均的にはどれも同程度に“悪い”
• 予測性能が悪いので本当は選ばれてはいけない Ωm
のモデルが、偶然、相対的に“良い”AICが出てしまい、
“最良モデル”として選ばれてしまう可能性あり。
良
悪
データ● ・・・
• データの取り方によって
右記の結果は変わり得る。
AICの期待値(複数のデータの取り⽅を考慮)
AICの実測値(データ1による)
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 「最適なモデルの探索をどう実装するか」
• 変数の組み合わせ“爆発” ⇒ “総当たり”は非現実的
• (1)古典的な⽅法
» 適当なルールによる“増減法”(例:R の「StepAIC」等)
• (2)汎用の離散最適化手法
» シミュレーテッド・アニーリング法
» 進化的アルゴリズム
• ⇒ いずれにしても、
局所的極小、過大な計算時間の不安は免れず・・・
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 22
伊庭「モデル選択超速習」
• <リッジ回帰-あえて「すべての変数を使う」という⽴場>
• 「L1正則化」は「変数選択」と「L2 正則化」の“合流点”
• 「L2 正則化」について
» (※「変数選択」とは“ゼロイチ” → “ハード”な変数選択)
• 変数を選択するのではなく、すべての変数(数多くの変数)をモデルに残そう
• ⇒ ただし、それらを“ソフト”に少しずつ押さえてやる(←予測性能劣化防⽌)
• ⇒ L2 ノルムによる罰則項を誤差二乗和の式に追加
• ⇒ 「L2 正則化」、「リッジ回帰」
• 以下の式を最小化
– ∑ − ∑ ( )
+ ∑
– “縮小推定”の一種 (※ただし、βj はきっちりゼロにはならない)
– あまり有効でない変数の係数の絶対値は早く縮小 ⇒ “ソフト”な変数選択
– 「λ」の値は cross validation 等で決定
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 23
• 正則化を⾏う場合、通常、説明変数
x は事前に何らかの標準化処理(例:
平均値を引いて標準偏差で割る)を
⾏う
伊庭「モデル選択超速習」
• <階層ベイズモデリングとの関係>
• (・・・ “リッジ回帰と”階層ベイズモデリングとの関係)
• まずは“形式的な解釈”
– (前提)
• パラメータ {βj} と説明変数 {x(j)}→	y の確率分布として正規分布を仮定
– # , ( )
=
$%&
' ( −
%& − ∑ ( )
– 通常の重回帰分析
– βj の事前分布に「一様分布」を仮定 → MAP推定 (=最小二乗法)
– リッジ回帰
– βj の事前分布に「分散1/2λ の正規分布」(※下記)を仮定 → MAP推定
– # =
)
$
' ( − ∑
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 24
伊庭「モデル選択超速習」
• <階層ベイズモデリングとの関係>
• ベイズ的観点からのリッジ回帰に関する論点
– 「λ の値を λ の事後分布からベイズ推定してよいか」
– “βj が j によらず同じ事前分布から生成”という仮定は妥当?
» 「βj 同士が確率変数として交換可能か?」
» ・・・ かなり“無理がある”
– 標準化の仕⽅やクラスター分けの有無の影響は?
» デリケートな問題だが、、、
» 実際には、リッジ回帰の「λ」をフルベイズで推定する、ということはあまり
⾒かけない
– 「βj の事前分布の分布形が正規分布でよいか」
– たとえば、、、
「普通の大きさの係数とほとんどゼロの係数が割とはっきり分離して存在」?
– ⇒ 実は、これは L1 正則化へのひとつの入り口になる疑問
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 25
伊庭「モデル選択超速習」
• <そしてスパース 〜やっぱり変数を選びたい>
• 「L1 正則化」の形式
• 最小化する式 ∑ − ∑ ( )
+ ∑
– βj の事前分布 〜 両側指数分布(ラプラス分布) とすることに相当
» # =
)
' ( − ∑
• (参考) L2 正則化の場合
» 最小化する式 ∑ − ∑ ( )
+ ∑
» βj の事前分布 # =
)
$
' ( − ∑
• 形式的には、罰則項において
リッジ回帰の を に置き換えている(だけ)
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 26
伊庭「モデル選択超速習」
• <そしてスパース 〜やっぱり変数を選びたい>
• 「変数選択」の能⼒を持つ「L1 正則化」
• (⾒かけ上はリッジ回帰の拡張版だが、、、)
• ある程度以上「いらない変数」の場合、 がきっちりゼロになってしまう!
• ⇒ ⾃動的に「変数選択」を⾏う能⼒が備わっている!
» (→ 詳細は池田解説へ)
• 「L1 正則化」は“解ける”
• (※解析解が得られるリッジ回帰のように簡単には解けないが…)
• 2次計画法の利用、さらに効率のよい⽅法もあり
• ⇒ 現実的に“解ける”ことが L1 正則化のキモ
• ⇒ 冒頭の問題3.の
「最適モデルの探索」には一定の解決をもたらす
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 27
伊庭「モデル選択超速習」
:【再掲】本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 28
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか?
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決
参考文献
• [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号
• [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測,
共⽴出版
• [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析,
数理解析研究所講究録 1908 : 57-77
(http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf)
• [4]⿅島久嗣, 「数理情報⼯学特論第一【機械学習とデータマイニング】1章:概論(3)」講義資
料(www.geocities.co.jp/kashi_pong/1-3.pdf)
• [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社
• [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会
講演資料
(https://www.slideshare.net/amp-kyoto/coordinate-descent)
• [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable
selection, Statistical Modelling, vol.15 (3) (2015), 215–232
• [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle
Regression(with discussion), The Annals of Statistics, 32, 407–499.
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 29

More Related Content

What's hot

相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
 

What's hot (20)

Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
統計的検定と例数設計の基礎
統計的検定と例数設計の基礎統計的検定と例数設計の基礎
統計的検定と例数設計の基礎
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
Stanでガウス過程
Stanでガウス過程Stanでガウス過程
Stanでガウス過程
 

Similar to 岩波データサイエンス_Vol.5_勉強会資料01

[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
Daisuke Yoneoka
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
t2tarumi
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
youwatari
 

Similar to 岩波データサイエンス_Vol.5_勉強会資料01 (20)

順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライド
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
PRML1.5
PRML1.5PRML1.5
PRML1.5
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
マーケティング技術
マーケティング技術マーケティング技術
マーケティング技術
 

岩波データサイエンス_Vol.5_勉強会資料01

  • 2. はじめに • 本資料・勉強会の目的 – X:分かっている人が分からない人に教える – ○: • 分からない(知らなかった)人が、分からないなりに勉強し、 整理してみる • 同じような⽴場・思いの人と、ともに学ぶ“材料” • ⇒間違いの訂正、補⾜、ご意⾒・コメント等々を ぜひよろしくお願いします。 2017/4/10 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 2
  • 3. この本 • 岩波データサイエンス Vol.5 • [特集] スパースモデリングと多変量 データ解析 – 岩波データサイエンス刊⾏委 員会 編 – 2017年2⽉刊⾏ – 岩波書店 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 3
  • 4. 目次 • 特集「スパースモデリングと多変量 データ解析」 • 池田・伊庭・麻生 <基礎編> • モデル選択超速習 – AICからスパースまで • 伊庭幸人 • スパース性を用いた推定 • 池田思朗 • スパースモデリングを体験してみる • 岩波データサイエンス刊⾏委員会 <展開編> • 依存関係にスパース性を入れる – グラフィカルlassoの話 • 井手剛 • 画像処理とスパース • 本谷秀堅 • 時間遷移のスパース性 – マーケットシェアの遷移を捉える スパースグラフモデリング • 日野英逸 <応用編> • ⾏列データの分解 • 麻生英樹 – <コラム>⾏列のトレースノルム – 麻生英樹 • ⾏列分解をリコメンデーションに活かす – Rによる実践例 • 尾崎隆 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 4
  • 5. 伊庭「モデル選択超速習」 • (副題:AICからスパースまで) • (導入部分) • “スパース以前”のモデル選択をめぐる諸問題、“前座” • ⇒スパースモデリングの位置付け • (はじめからメインディッシュに⾏きたい⽅は、本特集の池田の解説から 読み始めても、ほぼ問題なく読める) » ⇒ 「最尤法やベイズには馴染みがないが、重回帰分析は使ったことが ある」という読者にはむしろ分かりやすいかも 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 5
  • 6. 伊庭「モデル選択超速習」 :本解説の構造 • <問題の整理>より • 3つのレベルの区別 – 1. なぜ変数が少ないモデルが欲しいのか(根本問題) – 2. 具体的にどういう数式を最適にするのか(数理的表現) – 3. 最適なモデルをどうやって探すか(アルゴリズム) • スパースモデリングで重要な進展があったのは「3.」 • 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む • この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 6
  • 7. 伊庭「モデル選択超速習」 :本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 7 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ ◎
  • 8. 伊庭「モデル選択超速習」 :本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 8 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ • N が小さい(有限の)場合、 “単純なモデル”の⽅が予測性能が良い • 複雑さ“大” → ばらつき”大“ ◎ • “真のモデル”が分か らない中で「予測の良 さ」をどう測るか? ⇒ CV, AIC, etc. • 各種の“規準”を使っ た古典的な変数選択 の抱える問題点 • 「縮小推定」の代表格 L2 正則化 • 変数選択と縮小推定の“合流点”と しての L1 正則化(lasso) • 縮小推定の(一つの)究極形としての L1 正則化 • ⇒ 自動的にゼロイチの変数選択 • 「最適モデルの探索」については一定の解決
  • 9. 伊庭「モデル選択超速習」 • <問題の整理> • 「スパースモデリング」、大雑把にいうと、、、 – “与えられたデータに応じて、統計モデルの必要な部分を自動的に抽出 する技術” – 重回帰分析では、、、 → 多数の説明変数のリストから少数の必要なものを取り出す – 昔からある⾔葉 ・・・ 「モデル選択」、「変数選択」 » (これらの用語の使い分けにはいろいろ流儀がありそうだが・・) – この解説の中での呼び分け • 変数選択/モデル選択:複数のモデルの当てはめ ⇒ その中から選ぶ • スパースモデリング: 罰則項を加えて推定 ⇒ パラメータ推定+パラメータ数の削減 を同時に 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 9
  • 10. 伊庭「モデル選択超速習」 • <問題の整理>(続き)(再掲) • 3つのレベルの区別 – 1. なぜ変数が少ないモデルが欲しいのか(根本問題) – 2. 具体的にどういう数式を最適にするのか(数理的表現) – 3. 最適なモデルをどうやって探すか(アルゴリズム) • スパースモデリングで重要な進展があったのは「3.」 • 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む • この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 10
  • 11. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える • “変数が少ない”モデル →(⾔い換え)→ “単純な”モデル » (※サポートページの記述参照) » 重要なのは、“変数の数”より“未知パラメータの個数” (回帰分析でいえば、 説明変数の係数のうちデータから推定するものの個数) • 「予測」、「汎化」の視点 » 現代データサイエンスでは非常に重要 » AIC, CV(※いずれも後述)も「予測を目的とする」ことが大前提 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 11
  • 12. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える – 簡単な例:多項式回帰の次数選択 • モデルの当てはまり – 「与えられたデータへの当てはまり」からは 「説明変数が少ないほうがよい」ということは出てこない • 予測性能 – 「予測」を考えると話が違ってくる » サンプルサイズ N が小さいときは、複雑なモデル(2)は、単純 なモデル(3)よりも予測性能が悪く、訓練データに当てはめた結 果と真の値との差をあらわす2乗和が大きくなる。 » N が大きくなると、あるところで「逆転」が起きて、複雑なモデル (2)のほうが単純なモデル(3)より予測性能が良くなる。 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 12
  • 13. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える • ⇒おおまかにいって、サンプルサイズ N が小さいと きには単純なモデルのほうが強いのだ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 13 (本文 p.8 より)
  • 14. 伊庭「モデル選択超速習」 • <bias-variance dilemma> • 前節の議論の重要な点 • 「真の曲線」が2次式の場合でも、より単純な1次式の⽅が良い場 合があること – N が小さいとき = N が有限のとき • ⇒ 重回帰分析の変数選択でも、似た状況が起きる • 直観的な説明 • サンプルサイズ N が有限の場合、 • ⇒ 当てはめた , などのパラメータ推定値は、 サンプルに依存して真の値のまわりでばらつく • ⇒ パラメータの数が多いほどばらつきが大きくなる • ⇒ 予測性能の低下 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 14
  • 15. 伊庭「モデル選択超速習」 • <bias-variance dilemma> • bias-variance dilemma – bias (バイアス) – モデルによる推定値の平均と真の値との差を表す量 – 「データを無理やり⾃分の型にはめ込んで歪める効果」 – variance (バリアンス) – サンプルに依存した真の値の周りでの 「ばらつきの効果」 – dilemma (or trade-off) • モデルが複雑なほど・・・ • ⇒ バイアス:小、バリアンス:大 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 15(本文 p.10 より)
  • 16. 伊庭「モデル選択超速習」 • <CV と AIC> • 真のモデルなしで「予測の良さ」をどう⾒積もるか? • 実際のデータ解析では 「真のモデル」がわかっているわけではない • 「真のモデル」がわかっていない中で、前述の考え⽅で 「予測の良さ」を⾒積もる手段が必要 • ⇒ 従来、よく用いられた“手段・規準” ・・・ CV(Cross Validation; 交差検証法)と AIC 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 16
  • 17. 伊庭「モデル選択超速習」 • <CV と AIC> • CV (Cross Validation; 交差検証法) • 「訓練データ」で学習、「テストデータ」で予測の良さを推定 • 「精度を上げるためにいろいろな分け⽅をして、 その平均を計算することがよく⾏われる」 – 「精度を上げるため」? » X:“モデルの精度”を上げるため » ○:“「予測の良さ」の⾒積もりの精度”を上げるため – 「いろいろな分け⽅」 » 訓練データ&テストデータの分け⽅複数 ⇒ 平均 ⇒ 精度up 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 17
  • 18. 伊庭「モデル選択超速習」 • <CV と AIC> • CV (Cross Validation; 交差検証法) – いろいろな⽅法 • leave-p-out cross validation • K-fold cross validation – CV の評価基準 • 回帰問題 ・・・ 対数尤度 等 • 分類問題 ・・・ 誤判別率 等 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 18
  • 19. 伊庭「モデル選択超速習」 • <CV と AIC> • CV と AIC の間の“関係” – モデルが真の分布を含むとして、以下が成り⽴つ場合、 – モデルの当てはめを最尤法で⾏う – 予測の良さの評価を対数尤度で⾏う ⇒ CV(CV損失) と AIC は漸近的に等価 – = (−2) log − ・・・ CV損失は [] の中に漸近する • AIC や Cp 規準は先駆的だった • モデル選択に使われる各種規準 (CV, AIC, Cp 以外には・・・) – GIC, EIC, WAIC, DIC, BIC, MDL, 等々 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 19
  • 20. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 重回帰分析における変数選択 • 変数候補 M 個 ⇒ 組み合わせ 2M 個 (“爆発”) • こうした場合、 たとえば、AIC を使って⾃動的に変数選択をやろうと思っても、 課題・問題が生じてくる • 変数選択の問題点 (例:AICを使った変数選択) – 「多重性の効果をどう取り入れるか」 – (〜 冒頭の2. “数理的表現”に関連) – AIC は訓練データに依存する確率変数 → 多重性の問題 – ⇒次頁へ – 「最適なモデルの探索をどう実装するか」 – (〜 冒頭の3. “アルゴリズム”に関連) 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 20
  • 21. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 「多重性の効果をどう取り入れるか」 • AIC は、それ⾃身が訓練データに依存する確率変数 » ⇒ 平均対数尤度の期待値のまわりでランダムに変動・ばらつく » ⇒ 多重性の問題が発生 (※統計的検定の多重性と同様) • 多重性を考慮に入れた手法も考案されているが、、、まだ一般的でない 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 21 データ (⺟集団) データ1 モデルm1 モデルm2 モデルm3 モデルm4 モデルm5 データ2 AIC • 説明変数 m 個のモデル集合 Ωm • m は 大き過ぎる → 予測性能“悪” • m は 候補総数 M より十分小さい … • Ωm のモデルの予測性能(→AICで評価) は、平均的にはどれも同程度に“悪い” • 予測性能が悪いので本当は選ばれてはいけない Ωm のモデルが、偶然、相対的に“良い”AICが出てしまい、 “最良モデル”として選ばれてしまう可能性あり。 良 悪 データ● ・・・ • データの取り方によって 右記の結果は変わり得る。 AICの期待値(複数のデータの取り⽅を考慮) AICの実測値(データ1による)
  • 22. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 「最適なモデルの探索をどう実装するか」 • 変数の組み合わせ“爆発” ⇒ “総当たり”は非現実的 • (1)古典的な⽅法 » 適当なルールによる“増減法”(例:R の「StepAIC」等) • (2)汎用の離散最適化手法 » シミュレーテッド・アニーリング法 » 進化的アルゴリズム • ⇒ いずれにしても、 局所的極小、過大な計算時間の不安は免れず・・・ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 22
  • 23. 伊庭「モデル選択超速習」 • <リッジ回帰-あえて「すべての変数を使う」という⽴場> • 「L1正則化」は「変数選択」と「L2 正則化」の“合流点” • 「L2 正則化」について » (※「変数選択」とは“ゼロイチ” → “ハード”な変数選択) • 変数を選択するのではなく、すべての変数(数多くの変数)をモデルに残そう • ⇒ ただし、それらを“ソフト”に少しずつ押さえてやる(←予測性能劣化防⽌) • ⇒ L2 ノルムによる罰則項を誤差二乗和の式に追加 • ⇒ 「L2 正則化」、「リッジ回帰」 • 以下の式を最小化 – ∑ − ∑ ( ) + ∑ – “縮小推定”の一種 (※ただし、βj はきっちりゼロにはならない) – あまり有効でない変数の係数の絶対値は早く縮小 ⇒ “ソフト”な変数選択 – 「λ」の値は cross validation 等で決定 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 23 • 正則化を⾏う場合、通常、説明変数 x は事前に何らかの標準化処理(例: 平均値を引いて標準偏差で割る)を ⾏う
  • 24. 伊庭「モデル選択超速習」 • <階層ベイズモデリングとの関係> • (・・・ “リッジ回帰と”階層ベイズモデリングとの関係) • まずは“形式的な解釈” – (前提) • パラメータ {βj} と説明変数 {x(j)}→ y の確率分布として正規分布を仮定 – # , ( ) = $%& ' ( − %& − ∑ ( ) – 通常の重回帰分析 – βj の事前分布に「一様分布」を仮定 → MAP推定 (=最小二乗法) – リッジ回帰 – βj の事前分布に「分散1/2λ の正規分布」(※下記)を仮定 → MAP推定 – # = ) $ ' ( − ∑ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 24
  • 25. 伊庭「モデル選択超速習」 • <階層ベイズモデリングとの関係> • ベイズ的観点からのリッジ回帰に関する論点 – 「λ の値を λ の事後分布からベイズ推定してよいか」 – “βj が j によらず同じ事前分布から生成”という仮定は妥当? » 「βj 同士が確率変数として交換可能か?」 » ・・・ かなり“無理がある” – 標準化の仕⽅やクラスター分けの有無の影響は? » デリケートな問題だが、、、 » 実際には、リッジ回帰の「λ」をフルベイズで推定する、ということはあまり ⾒かけない – 「βj の事前分布の分布形が正規分布でよいか」 – たとえば、、、 「普通の大きさの係数とほとんどゼロの係数が割とはっきり分離して存在」? – ⇒ 実は、これは L1 正則化へのひとつの入り口になる疑問 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 25
  • 26. 伊庭「モデル選択超速習」 • <そしてスパース 〜やっぱり変数を選びたい> • 「L1 正則化」の形式 • 最小化する式 ∑ − ∑ ( ) + ∑ – βj の事前分布 〜 両側指数分布(ラプラス分布) とすることに相当 » # = ) ' ( − ∑ • (参考) L2 正則化の場合 » 最小化する式 ∑ − ∑ ( ) + ∑ » βj の事前分布 # = ) $ ' ( − ∑ • 形式的には、罰則項において リッジ回帰の を に置き換えている(だけ) 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 26
  • 27. 伊庭「モデル選択超速習」 • <そしてスパース 〜やっぱり変数を選びたい> • 「変数選択」の能⼒を持つ「L1 正則化」 • (⾒かけ上はリッジ回帰の拡張版だが、、、) • ある程度以上「いらない変数」の場合、 がきっちりゼロになってしまう! • ⇒ ⾃動的に「変数選択」を⾏う能⼒が備わっている! » (→ 詳細は池田解説へ) • 「L1 正則化」は“解ける” • (※解析解が得られるリッジ回帰のように簡単には解けないが…) • 2次計画法の利用、さらに効率のよい⽅法もあり • ⇒ 現実的に“解ける”ことが L1 正則化のキモ • ⇒ 冒頭の問題3.の 「最適モデルの探索」には一定の解決をもたらす 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 27
  • 28. 伊庭「モデル選択超速習」 :【再掲】本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 28 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ • N が小さい(有限の)場合、 “単純なモデル”の⽅が予測性能が良い • 複雑さ“大” → ばらつき”大“ ◎ • “真のモデル”が分か らない中で「予測の良 さ」をどう測るか? ⇒ CV, AIC, etc. • 各種の“規準”を使っ た古典的な変数選択 の抱える問題点 • 「縮小推定」の代表格 L2 正則化 • 変数選択と縮小推定の“合流点”と しての L1 正則化(lasso) • 縮小推定の(一つの)究極形としての L1 正則化 • ⇒ 自動的にゼロイチの変数選択 • 「最適モデルの探索」については一定の解決
  • 29. 参考文献 • [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号 • [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測, 共⽴出版 • [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析, 数理解析研究所講究録 1908 : 57-77 (http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf) • [4]⿅島久嗣, 「数理情報⼯学特論第一【機械学習とデータマイニング】1章:概論(3)」講義資 料(www.geocities.co.jp/kashi_pong/1-3.pdf) • [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社 • [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会 講演資料 (https://www.slideshare.net/amp-kyoto/coordinate-descent) • [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable selection, Statistical Modelling, vol.15 (3) (2015), 215–232 • [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle Regression(with discussion), The Annals of Statistics, 32, 407–499. 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 29