SlideShare une entreprise Scribd logo
1  sur  25
Télécharger pour lire hors ligne
“Trust Region Policy Optimization”
ICML2015 読 会
藤田康博
Preferred Networks
August 20, 2015
話 人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味
読 論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ (深層)強化学習 話
▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al.
2013] 異 ,価値関数 方策 NN 表現
最適化 (policy optimization)
何
:https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝
Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策(policy)π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標:η(π) 小 π 求
価値関数
状態 先 期待割引 考 便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従 行動 選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選 先 π 従 行動 選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
Trust Region Policy Optimization(TRPO)
▶ 元 方策 πθold
KL 値 δ 以下
抑 制約付 最適化問題 解
方策 改善 提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出 説明 (時間 )
期待割引 最小化(1)
方策 π 元 , 良 方策 ˜π 求 考
▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割
引 対 表 (証
明 論文 Appendix 参照).
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使 書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
期待割引 最小化(2)
▶ ρ˜π ρπ 置 換 楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善 , ?
Conservative Policy Iteration(CPI) [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次 保証 得
.
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|)
▶ η(πnew) < η(πold) α 計算
混合方策 求 繰 返 単調改善
非混合方策 拡張(1)
混合方策 実用的 一般 確率的方策 対
改善 保証 ( 論文 主 理論的貢献)
Theorem 1
α = Dmax
TV (πold, πnew), ϵ = maxs maxa |Aπold
(s, a)| 混合
方策 πnew 対
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
成 立 .
DTV(p ∥ q) :=
1
2
∑
i
|pi − qi | (total variation divergence),
Dmax
TV (π, π′
) := max
s
DTV(π(· | s) ∥ ˜π(· | s)), (9)
非混合方策 拡張(2)
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係 使 ,
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書 .
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).
化 方策 最適化(1)
化 方策 πθ(a | s) 考 .
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善 保証 .
▶ , C 値 実際 大 ,更新
量 小 ,代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
(信頼領域)制約付 最適化問題 .
化 方策 最適化(2)
▶ ,Dmax
KL 制約 ,制約 数 多
実用的 ,平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代 使 ,解 最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)
近似
▶ 先 最適化問題 期待値 形 書 , 分布
q(a | s) importance sampling 使
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 期待値 有限 近似 ,Qθ(s, a)
推定値 計算
▶ 2 種類 方 提案:Single Path, Vine
法1:Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT
生成 ,全 状態行動 使
(q = πθ)
▶ Qθ(s, a) 元 軌跡 実際 割引 推定
法2:Vine
▶ πθ 従 生成 軌跡 N 個 状態
, 状態 K 個 行動 q
従 選
▶ Qθ(s, a) 結果 割引
推定
実用的
以下 繰 返
1. Single Path Vine 使 ,状態行動 (s, a)
Qπ(s, a) 推定値 集
2. 目的関数 制約条件 構築
3. 制約付 最適化問題 解 更新量 求
▶ (共役勾配法 直線探索 用 )
移動制御 評価(1)
Swimmer Hopper Walker
入力 10 12 20
出力(連続,gaussian) 2 3 6
数 364 4806 8206
移動制御 評価(2)
▶ Single Path, Vine 既存手法 性能
▶ (手法 下 見
?)
評価(1)
▶ 入力:Atari 2600 画面
▶ 出力: 押下(離散,softmax)
▶ 数:33500
評価(2)
▶ 一部 DQN ( [Mnih et al. 2013] )
上回 達成
▶ Vine > DQN:Pong, Q*bert
▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
▶ 一般 確率的方策 期待割引 単調減少
保証 更新方法 提示
▶ 実用的 方策最適化
TRPO 提案
▶ 2 種類 評価
▶ 移動制御:総 既存 方策最適化手法
上回
▶ : DQN 上回
:DQN 比較
TRPO DQN
NN 表 方策 π 行動価値関数 Q(s, a)
行動空間 連続 ◦ ×
行動空間 離散 ◦ ◦
Single Path 不要,
Vine 必要
不要
実装 容易 行列・ 積
効率的 計算方法,共
役勾配法 必要
SGD 学習可能
参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

Contenu connexe

Tendances

強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてYusuke Nakata
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷Eiji Sekiya
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 

Tendances (20)

強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 

En vedette

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement LearningDeep Learning JP
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + αKatsuki Ohto
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 

En vedette (6)

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 

Plus de mooopan

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradientmooopan
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017mooopan
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learningmooopan
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradientsmooopan
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...mooopan
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
 

Plus de mooopan (9)

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradient
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
 

Trust Region Policy Optimization

  • 1. “Trust Region Policy Optimization” ICML2015 読 会 藤田康博 Preferred Networks August 20, 2015
  • 2. 話 人 ▶ 藤田康博 ▶ Preferred Networks ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 強化学習・ AI 興味
  • 3. 読 論文 John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel. Trust Region Policy Optimization. ICML 2015. ▶ (深層)強化学習 話 ▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al. 2013] 異 ,価値関数 方策 NN 表現 最適化 (policy optimization)
  • 5. Policy Optimization ▶ 決定過程 (S, A, P, c, ρ0, γ) ▶ S 状態集合 ▶ A 行動集合 ▶ P : S × A × S → R 遷移確率 ▶ c : S → R 関数 ▶ ρ0 : S → R 初期状態 s0 分布 ▶ γ ∈ [0, 1] 割引率 ▶ 方策(policy)π : S × A → [0, 1] ▶ 期待割引 η(π) = Es0,a0,... [ ∞∑ t=0 γt c(st) ] , where s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at) ▶ 目標:η(π) 小 π 求
  • 6. 価値関数 状態 先 期待割引 考 便利 ▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st 先 π 従 行動 選 ▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st at 選 先 π 従 行動 選 ▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
  • 7. Trust Region Policy Optimization(TRPO) ▶ 元 方策 πθold KL 値 δ 以下 抑 制約付 最適化問題 解 方策 改善 提案 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 導出 説明 (時間 )
  • 8. 期待割引 最小化(1) 方策 π 元 , 良 方策 ˜π 求 考 ▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割 引 対 表 (証 明 論文 Appendix 参照). η(˜π) = η(π) + Es0,a0,... [ ∞∑ t=0 γt Aπ(st, at) ] , where s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1) ▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . ) 使 書 η(˜π) = η(π) + ∑ s ρ˜π(s) ∑ a ˜π(a | s)Aπ(s, a). (2) ▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
  • 9. 期待割引 最小化(2) ▶ ρ˜π ρπ 置 換 楽 Lπ(˜π) = η(π) + ∑ s ρπ(s) ∑ a ˜π(a | s)Aπ(s, a). (3) ▶ π 十分近 η 一次近似 Lπθ0 (πθ0 ) = η(πθ0 ), ∇θLπθ (πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4) ▶ 十分小 Lπ 改善 η 改善 , ?
  • 10. Conservative Policy Iteration(CPI) [Kakade and Langford 2002] ▶ π′ = arg minπ′ Lπold (π′ ) πold 混合方策 πnew(a | s) = (1 − α)πold(a | s) + απ′ (a | s) (5) 期待割引 η(πnew) 次 保証 得 . η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) ( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold (s, a)]|) ▶ η(πnew) < η(πold) α 計算 混合方策 求 繰 返 単調改善
  • 11. 非混合方策 拡張(1) 混合方策 実用的 一般 確率的方策 対 改善 保証 ( 論文 主 理論的貢献) Theorem 1 α = Dmax TV (πold, πnew), ϵ = maxs maxa |Aπold (s, a)| 混合 方策 πnew 対 η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) 成 立 . DTV(p ∥ q) := 1 2 ∑ i |pi − qi | (total variation divergence), Dmax TV (π, π′ ) := max s DTV(π(· | s) ∥ ˜π(· | s)), (9)
  • 12. 非混合方策 拡張(2) DTV(p ∥ q)2 ≤ DKL(p ∥ q) 関係 使 , η(˜π) ≤ Lπ(˜π) + CDmax KL (π, ˜π), where C = 2ϵγ (1 − γ)2 (10) 書 . Dmax KL (π, π′ ) := max s DKL(π(· | s) ∥ ˜π(· | s)).
  • 13. 化 方策 最適化(1) 化 方策 πθ(a | s) 考 . ▶ 結果 minimize θ [CDmax KL (θold, θ) + Lθold (θ)] 解 η θold 改善 保証 . ▶ , C 値 実際 大 ,更新 量 小 ,代 minimize θ Lθold (θ) subject to Dmax KL (θold, θ) ≤ δ. (12) (信頼領域)制約付 最適化問題 .
  • 14. 化 方策 最適化(2) ▶ ,Dmax KL 制約 ,制約 数 多 実用的 ,平均 KL ¯Dρ KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))] 代 使 ,解 最適化問題 minimize θ Lθold (θ) subject to ¯D ρθold KL (θold, θ) ≤ δ. (13)
  • 15. 近似 ▶ 先 最適化問題 期待値 形 書 , 分布 q(a | s) importance sampling 使 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 期待値 有限 近似 ,Qθ(s, a) 推定値 計算 ▶ 2 種類 方 提案:Single Path, Vine
  • 16. 法1:Single Path ▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT 生成 ,全 状態行動 使 (q = πθ) ▶ Qθ(s, a) 元 軌跡 実際 割引 推定
  • 17. 法2:Vine ▶ πθ 従 生成 軌跡 N 個 状態 , 状態 K 個 行動 q 従 選 ▶ Qθ(s, a) 結果 割引 推定
  • 18. 実用的 以下 繰 返 1. Single Path Vine 使 ,状態行動 (s, a) Qπ(s, a) 推定値 集 2. 目的関数 制約条件 構築 3. 制約付 最適化問題 解 更新量 求 ▶ (共役勾配法 直線探索 用 )
  • 19. 移動制御 評価(1) Swimmer Hopper Walker 入力 10 12 20 出力(連続,gaussian) 2 3 6 数 364 4806 8206
  • 20. 移動制御 評価(2) ▶ Single Path, Vine 既存手法 性能 ▶ (手法 下 見 ?)
  • 21. 評価(1) ▶ 入力:Atari 2600 画面 ▶ 出力: 押下(離散,softmax) ▶ 数:33500
  • 22. 評価(2) ▶ 一部 DQN ( [Mnih et al. 2013] ) 上回 達成 ▶ Vine > DQN:Pong, Q*bert ▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
  • 23. ▶ 一般 確率的方策 期待割引 単調減少 保証 更新方法 提示 ▶ 実用的 方策最適化 TRPO 提案 ▶ 2 種類 評価 ▶ 移動制御:総 既存 方策最適化手法 上回 ▶ : DQN 上回
  • 24. :DQN 比較 TRPO DQN NN 表 方策 π 行動価値関数 Q(s, a) 行動空間 連続 ◦ × 行動空間 離散 ◦ ◦ Single Path 不要, Vine 必要 不要 実装 容易 行列・ 積 効率的 計算方法,共 役勾配法 必要 SGD 学習可能
  • 25. 参考文献 I [1] Sham Kakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: ICML 2002. 2002. [2] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.