SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
1/11
最急降下法
宮澤 彬
総合研究大学院大学 博士前期
miyazawa-a@nii.ac.jp
July 13, 2015
(modified: December 2, 2015)
2/11
最急降下法
関数の停留点(特に極小点)を,反復的な計算で求めるにはどうすれば
よいか.接線の傾きが負である点から,0 に近づく方向に移動していけ
ばよさそうである.
O x
y
y = f (x)
f (x∞) = 0
x0 xk x∞
3/11
Armijo 条件
0 < ξ1 < 1 であるような定数 ξ1 に対して,
f (xk + αdk) ≤ f (xk) + ξ1α f (xk) · dk
を満たす α > 0 を選ぶ.この条件を Armijo 条件 1
という.
O x
y
y = f (xk) + ξ1α f (xk) · dk
y = f (xk) + α f (xk) · dk
y = f (x)
xk xk + αdk
1 スペイン語読みをするならばおそらく/arˈmixo/.
4/11
Wolfe 条件
0 < ξ1 < ξ2 < 1 であるような ξ1, ξ2 に対して
ξ2 f (xk) · dk ≤ f (xk + αdk) · dk
を満たす α > 0 を選ぶ.この条件を曲率条件 (curvature condition)
と呼ぶ.この条件と Armijo 条件を合わせて Wolfe 条件と呼ぶ.
O x
y
ξ2 f (xk)
f (xk)
y = f (x)
xk xk + αdk
5/11
Zoutendijk 条件
定理 目的関数 f (x) は下に有界で,かつ,初期点 x0 における準位集合
{x ; f (x) ≤ f (x0)} におけるを含む開集合 U において連続的微分可能
であるとする.また勾配 f (x) は U で Lipschitz 連続であるとする.
すなわち,ある正定数 L が存在して,任意の x, y ∈ U に対して
f (x) − f (y) ≤ L x − y
が成り立つとする.
このとき xk+1 = xk + αkdk を以下の条件を満たすようにとる.
各 αk が Wolfe 条件を満たす.
各 dk が降下方向である.すなわち f (xk) · dk < 0 を満たす.
すると点列 (xk)k について
∞
k=0
f (xk) · dk
dk
2
< ∞
が成り立つ.
6/11
Zoutendijk 条件
証明 曲率条件と xk+1 = xk + αkdk から
ξ2 f (xk) · dk ≤ f (xk+1) · dk
(ξ2 − 1) f (xk) · dk ≤ ( f (xk+1) − f (xk)) · dk
が成り立つ.Lipschitz 条件より
( f (xk+1) − f (xk)) · dk ≤ f (xk+1) − f (xk) dk
≤ L xk+1 − xk dk
≤ αkL dk
2
が成り立つ.これらから
αk ≥
( f (xk+1) − f (xk)) · dk
L dk
2
≥
ξ2 − 1
L
f (xk) · dk
dk
2
を得る.
7/11
Zoutendijk 条件
得られた αk を Armijo 条件に代入して
f (xk+1) ≤ f (xk) + ξ1αk f (xk) · dk
≤ f (xk) −
ξ1 (1 − ξ2)
L
( f (xk) · dk)
2
dk
2
となる.ここで k = 0 から m までの和をとると
m
k=0
(f (xk+1) − f (xk)) ≤ −
m
k=0
ξ1 (1 − ξ2)
L
( f (xk) · dk)
2
dk
2
f (xm+1) − f (x0) ≤ −
ξ1 (1 − ξ2)
L
m
k=0
( f (xk) · dk)
2
dk
2
を得る.
8/11
Zoutendijk 条件
上式の右辺は m が増加するにつれて単調に減少する.また f は下に有
界であると仮定していたので
∞
k=0
( f (xk) · dk)
2
dk
2 < ∞ (Zoutendijk)
を得る.
上の (Zoutendijk) を Zoutendijk 条件 2
と呼ぶ.
2 オランダ語読みをするならばおそらく/ˈzɑutəndɛ̞ɪk/.
9/11
Zoutendijk 条件
Zoutendijk 条件が成り立つとする.このとき
S :=
∞
k=0 ( f (xk) · dk)
2
/ dk
2
はある有限の値である.
Cauchy-Schwarz の不等式から,任意の自然数 m について
m
k=0
| f (xk) · dk|
dk
2
≤
m
k=0
( f (xk) · dk)
2
dk
2 ≤ S
が成り立つ.ゆえに
∞
k=0
| f (xk) · dk|
dk
≤
√
S
となり,この級数は収束することが分かる.したがって
| f (xk) · dk|
dk
→ 0 (k → ∞)
となる.
10/11
最急降下法の大域収束性
特に dk = − f (xk) をとる.この dk は f (xk) · dk = − f (xk)
2
< 0
を満たすので,降下方向である.さらに先に示した結果から,
| f (xk) · dk|
dk
= f (xk) → 0 (k → ∞)
を満たす.
Cauchy-Schwarz の不等式における等号成立条件から, dk を固定し
て考えたとき,この dk は f (xk) · dk を最小にするものである.つま
り最も急に減少させるものである.そのため dk = − f (xk) とする方
法を最急降下法 (steepest descent method) と呼ぶ.
11/11
参考文献・おわりに
主に以下を参考にした.
矢部博, 新・工科系の数学「工学基礎 最適化とその応用」, 数理工
学社, 2006.
また,このスライドのソースコードは
https://github.com/pecorarista/documents にある.

Contenu connexe

Tendances

SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
Masayuki Tanaka
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
 

Tendances (20)

2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
 

Similaire à 最急降下法

060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
t2tarumi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
t2tarumi
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
Tomonari Masada
 
ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率
Masaki Asano
 
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
Tasuku Soma
 

Similaire à 最急降下法 (20)

060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 
20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
回帰
回帰回帰
回帰
 
高速フーリエ変換
高速フーリエ変換高速フーリエ変換
高速フーリエ変換
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
 
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
 
カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論
 
ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率
 
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
 
Scala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみたScala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみた
 
Prml07
Prml07Prml07
Prml07
 
ndwave3.pdf
ndwave3.pdfndwave3.pdf
ndwave3.pdf
 
linhyp.pdf
linhyp.pdflinhyp.pdf
linhyp.pdf
 
導来代数幾何入門
導来代数幾何入門導来代数幾何入門
導来代数幾何入門
 

Plus de Akira Miyazawa (7)

LuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作るLuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作る
 
メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討
 
An incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsingAn incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsing
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 

最急降下法

  • 3. 3/11 Armijo 条件 0 < ξ1 < 1 であるような定数 ξ1 に対して, f (xk + αdk) ≤ f (xk) + ξ1α f (xk) · dk を満たす α > 0 を選ぶ.この条件を Armijo 条件 1 という. O x y y = f (xk) + ξ1α f (xk) · dk y = f (xk) + α f (xk) · dk y = f (x) xk xk + αdk 1 スペイン語読みをするならばおそらく/arˈmixo/.
  • 4. 4/11 Wolfe 条件 0 < ξ1 < ξ2 < 1 であるような ξ1, ξ2 に対して ξ2 f (xk) · dk ≤ f (xk + αdk) · dk を満たす α > 0 を選ぶ.この条件を曲率条件 (curvature condition) と呼ぶ.この条件と Armijo 条件を合わせて Wolfe 条件と呼ぶ. O x y ξ2 f (xk) f (xk) y = f (x) xk xk + αdk
  • 5. 5/11 Zoutendijk 条件 定理 目的関数 f (x) は下に有界で,かつ,初期点 x0 における準位集合 {x ; f (x) ≤ f (x0)} におけるを含む開集合 U において連続的微分可能 であるとする.また勾配 f (x) は U で Lipschitz 連続であるとする. すなわち,ある正定数 L が存在して,任意の x, y ∈ U に対して f (x) − f (y) ≤ L x − y が成り立つとする. このとき xk+1 = xk + αkdk を以下の条件を満たすようにとる. 各 αk が Wolfe 条件を満たす. 各 dk が降下方向である.すなわち f (xk) · dk < 0 を満たす. すると点列 (xk)k について ∞ k=0 f (xk) · dk dk 2 < ∞ が成り立つ.
  • 6. 6/11 Zoutendijk 条件 証明 曲率条件と xk+1 = xk + αkdk から ξ2 f (xk) · dk ≤ f (xk+1) · dk (ξ2 − 1) f (xk) · dk ≤ ( f (xk+1) − f (xk)) · dk が成り立つ.Lipschitz 条件より ( f (xk+1) − f (xk)) · dk ≤ f (xk+1) − f (xk) dk ≤ L xk+1 − xk dk ≤ αkL dk 2 が成り立つ.これらから αk ≥ ( f (xk+1) − f (xk)) · dk L dk 2 ≥ ξ2 − 1 L f (xk) · dk dk 2 を得る.
  • 7. 7/11 Zoutendijk 条件 得られた αk を Armijo 条件に代入して f (xk+1) ≤ f (xk) + ξ1αk f (xk) · dk ≤ f (xk) − ξ1 (1 − ξ2) L ( f (xk) · dk) 2 dk 2 となる.ここで k = 0 から m までの和をとると m k=0 (f (xk+1) − f (xk)) ≤ − m k=0 ξ1 (1 − ξ2) L ( f (xk) · dk) 2 dk 2 f (xm+1) − f (x0) ≤ − ξ1 (1 − ξ2) L m k=0 ( f (xk) · dk) 2 dk 2 を得る.
  • 8. 8/11 Zoutendijk 条件 上式の右辺は m が増加するにつれて単調に減少する.また f は下に有 界であると仮定していたので ∞ k=0 ( f (xk) · dk) 2 dk 2 < ∞ (Zoutendijk) を得る. 上の (Zoutendijk) を Zoutendijk 条件 2 と呼ぶ. 2 オランダ語読みをするならばおそらく/ˈzɑutəndɛ̞ɪk/.
  • 9. 9/11 Zoutendijk 条件 Zoutendijk 条件が成り立つとする.このとき S := ∞ k=0 ( f (xk) · dk) 2 / dk 2 はある有限の値である. Cauchy-Schwarz の不等式から,任意の自然数 m について m k=0 | f (xk) · dk| dk 2 ≤ m k=0 ( f (xk) · dk) 2 dk 2 ≤ S が成り立つ.ゆえに ∞ k=0 | f (xk) · dk| dk ≤ √ S となり,この級数は収束することが分かる.したがって | f (xk) · dk| dk → 0 (k → ∞) となる.
  • 10. 10/11 最急降下法の大域収束性 特に dk = − f (xk) をとる.この dk は f (xk) · dk = − f (xk) 2 < 0 を満たすので,降下方向である.さらに先に示した結果から, | f (xk) · dk| dk = f (xk) → 0 (k → ∞) を満たす. Cauchy-Schwarz の不等式における等号成立条件から, dk を固定し て考えたとき,この dk は f (xk) · dk を最小にするものである.つま り最も急に減少させるものである.そのため dk = − f (xk) とする方 法を最急降下法 (steepest descent method) と呼ぶ.
  • 11. 11/11 参考文献・おわりに 主に以下を参考にした. 矢部博, 新・工科系の数学「工学基礎 最適化とその応用」, 数理工 学社, 2006. また,このスライドのソースコードは https://github.com/pecorarista/documents にある.