SlideShare une entreprise Scribd logo
1  sur  24
スパース性に基づく機械学習
2.3〜2.5節
機械学習プロフェッショナルシリーズ
@St_Hakky
自己紹介と告知
• Twitter : @St_Hakky
• ブログ:http://st-hakky.hatenablog.com/
• 関西で機械学習勉強会を実施中!!
• 団体のモットー:
• 圧倒的スピード感で大量の書物と論文をぶった切る
• 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる
• 過去のイベント例
• PRML輪講会、PRML上巻/下巻一気読み
• データ解析のための統計モデリング入門の輪講会
• わかりやすいパターン認識(続)の輪講会
• 参加したい方は、Facebookのグループにまずは参加を。
• URL :https://www.facebook.com/groups/1767916400127792/
スパース性に基づく機械学習の
2.3〜2.5節をやります
コンテンツ
• 2.3 : 正則化
• 2.4 : 交差確認
• 2.5 : 制約付き最小化問題と罰則項付き最小化問
題の等価性
正則化
• 仮説集合の大きさの制御方法
• 特徴量の増減だけじゃない!
• →同じ特徴空間であってもパラメータベクトル𝒘をより
小さい集合から選ぶことで分散を減少できる
• この様な方法として、パラメータベクトルのノルム
の制約がある。
ノルムとは
• 関数 ・ ∶ ℝ 𝑑 → ℝ が以下の3つの性質を満たす
とき、 ・ はノルム(norm)という。
• (斉次性) 任意の𝛼 ∈ ℝ, 𝒙 ∈ ℝ 𝑑に対して、
𝛼𝒙 = 𝛼 𝒙
が成立
• (劣加法性)任意の に対して、
が成立。
• (独立性)
L1,L2,L3ノルム
L1ノルム
L2ノルム
L3ノルム
罰則付き推定量
• 同じ特徴空間であってもパラメータベクトル𝑤をより小さい
集合から選ぶことで分散を減少するためのノルムを使った
一種の方法
• 罰則付き推定量
罰則付き推定量
2.5節で示すが、以下の二つの式は等価
2.20式はノルムで制約があるものの、パラメータ数は11であ
り、関数は正則化に関係なく10次の多項式
なぜノルムで分散を減らせるのか?
• 説明しよう!
まずは図の説明
罰則項付き最小化問題を幾何学的に解釈す
るために作られた図
パラメータ次元d=2で横軸が𝑤1、縦軸が𝑤2である
人工的に生成した回帰問題に対する正則化の
軌跡
真のパラメータ𝑤∗
= (2,1) 𝑇
(黒色の×)
サンプル数n=10
(a)の図と合わせて、もう一つ(b)の図があるが、
これらは独立に同分布から生成されたデータであ
る
楕円状の等高線上は経験誤差関数の値を表す
なぜノルムで分散を減らせるのか?
正則化パラメータλが大きくなるに
従って、解ωは原点を中心とする
小さい同心円上の内部に制約され
る。
すなわち、正則化が強くなるほど、小サンプルに由来する揺らぎが抑えら
れ、分散が小さくなることがわかる
これにより、別でサンプルされた(a)と(b)の回曲線が近づいていることが
わかる。
ノルムの値による違い
多項式回帰問題に対して罰則項付き経験誤差最小化
(2.19)を用いた結果を示す。
λ=10-6 : 概ね正しい関数を推定
λ=10-2 : 0 ≤ 𝑥 ≤ 0.6 の範囲で学習された関数がほ
ぼ直線になり、誤差が大きくなってしまう
パラメータの数の変化と正則化パラメータの
変化の比較
(c)と(d)の比較
(d):期待誤差は正則化パラメータλ=10-5付近で最小。極端な変化はなし
(c):次数p=3付近でやや急峻に誤差が変化
(c)の場合は、p=3以上ではバイアスと呼ぶ誤差要因がゼロになる一方で、(d)で
はラムダ=0でない限り、バイアスはゼロにならないから起こる。
(c) : パラメータの数を変化 (d) : 正則化パラメータを変化
2.4 交差確認
• 2.3節で多項式の次数pと正則化パラメータλあるいはCを
調節することでバイアスと分散のトレードオフを測ることが
できることを見た。
• これらのパラメータは、モデルの持つパラメータと区別する
ためにハイパーパラメータと呼ぶ。
• ハイパーパラメータを決定する問題はモデル選択という。
データを基にハイパーパラメータの決定
• ハイパーパラメータの決定を客観的にするにはど
うしたらいいか?
• 訓練データに対する当てはまり:×
• 理由:モデルが複雑なほど小さくなる。汎化性能がない
• 期待誤差を用いる?:×
• 理由:未知の分布に対する期待値が必要なので、基準として
用いることができない
• どうする?
データを基にハイパーパラメータの決定
• 一般的に、次の2つがよく用いられる
• 検証データを用いる方法
• 交差確認(cross validation)
検証データを用いる方法
• 検証データを用いる方法:
• 与えられたデータを訓練用と検証用に分割
• 訓練データでパラメータを学習(ハイパーパラメータは
固定)
• 検証データで、検証データに対する誤差を最小にする
様にハイパーパラメータを決定
• 訓練用と検証用の比率は、8:2 or 9:1が一般的
交差確認(cross validation)
• 交差確認を用いる方法:
• 訓練データをK分割
• K-1個の部分で学習して、誤差評価
• これをすべての1,2,…,K部分で行い、誤差平均を取る
• Kは5や10が一般的
検証データを用いる方法と交差確認の比較
• データの規模:
• 検証データを用いる方法:大規模データ
• 交差確認と比べて計算量が少ないから
• 交差確認:小〜中規模データ
• データの分割方法:
• 検証データを用いる方法:分割を固定することが多い
• 検証データに対する誤差に再現性があるため、コンペでもこの方法
を使うことが多い様子。
• 交差確認:分割はランダム
2.5 制約付き最小化問題と罰則項付き最小化問題
の等価性
ここでは、一般の損失関数𝐿と罰則項𝑔に関して、以下の二つの式が等価
であることを説明する
・制約付き最小化問題
・罰則項付き最小化問題
ここで、損失関数𝐿及び罰則項𝑔は共に凸関数とし、任意の𝐶に関して以
下の集合が有界とする
制約付き最小化問題と罰則項付き最小化問題の等
価性
あるCにおける制約付き最小化問題(2.21) の最小値をL(C)とする
青の実線𝐿(𝐶) :目的関数
の最小値を示す
制約𝑔 𝜔 ≤ Cの元で達成可能な
目的関数𝐿(𝜔)の値の領域
共通部分を持つという制約の中で
最も小さい𝑡に対応する直線
制約なし最小値𝐿0 = 𝑚𝑖𝑛 𝒘 𝐿(𝒘)より𝐿(𝐶)が小
さくなることはないことに注意。
交点の座標が罰則項付き
最小化問題(2.22)の解 𝒘
𝐿 + λ𝐶 = 𝑡
制約付き最小化問題と罰則項付き最小化問題の等
価性
青の実線� (� ) :目的関数
の最小値を示す
制約� � ≤ Cの元で達成可能な
目的関数� (� )の値の領域
共通部分を持つという制約の中で
最も小さい�に対応する直線
交点の座標が罰則項付き
最小化問題(2.22)の解�
� + λ� = �
この𝐶の値に対する制約付き最小化問題(2.21)の解は、罰則項付き最小
化問題の解 𝒘を含む。
逆に、曲線上側領域の凸性から、任意の𝐶に対して対応するλの値があ
り、罰則項付き最小化問題(2.22)の解はこの𝐶に対する制約付き最小化
問題(2.21)の解を含む
おしまい

Contenu connexe

Tendances

Tendances (20)

[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01R実践 機械学習による異常検知 01
R実践 機械学習による異常検知 01
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 

Plus de Hakky St

Plus de Hakky St (16)

Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
 
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
 
An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms
 
劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 4.2節
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 4.2節スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 4.2節
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 4.2節
 
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節
 
強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章
 
Reducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networksReducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networks
 
Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章 【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
 
Tensorflow
TensorflowTensorflow
Tensorflow
 
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
 

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節