【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Responsive Safety in Reinforcement Learning
by PID Lagrangian Methods (ICML2020)の解説
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo

書誌情報
2
題目： Responsive Safety in Reinforcement Learning by PID Lagrangian Methods
著者： Adam Stooke, Joshua Achiam, and Pieter Abbeel
採録： ICML2020
概要：
• 制約条件を考慮した強化学習(Constrained RL)
• ベースラインアルゴリズムのLagrangian methodについて、
制御工学におけるPID制御を応用することで性能を改善
選定理由：
• Constrained RLを１次のダイナミクスとして再定義
• 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた
※注釈無しの図は本論文から抜粋

問題設定
3
強化学習に制約条件を組み込んだもの
目的関数
方策：
コスト：
以下の最適化問題を解く
Constrained Markov Decision Processes (CMDP):

CMDPの具体例
4
ベースラインアルゴリズム:
1) Constrained Policy Optimization (CPO)
2) Lagrangian method
実装がCPOよりも簡単
コスト制約の追従に関して良い性能を発揮
図はhttps://openai.com/blog/safety-gym/より抜粋
Safety-Gym:
2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題

PID-Lagrangian Methodの概要
5
従来のLagrangian Methodの課題
➝コストの応答が振動的になる：
コスト(応答) λ（制御入力）
提案手法：PID-Lagrangian Method
未定乗数法λの更新でPID制御を導入
収束性を改善、振動を抑制
従来手法の未定乗数λの更新は積分制御に相当
g(x)の応答に対して制御入力の位相が９０度遅れる
位相が遅れることは制御工学の安定性の観点から好ましくない

ラグランジュの未定乗数法
6
制約条件付きの最適化問題：
未定乗数λを用いた制約条件なしの最適化問題：
勾配法を用いて数値的に計算する場合：

，
既存の数値計算方法について
7
次式の微分方程式を考える：
（１）を時間ｔで微分して（２）を代入する
[1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987.
文献[１]より以下が示されている：
• Aが正定値であれば制約条件を満たす解へ収束
• 振動的に収束することが多い
（１）
（２）
➝２次のダイナミクス

PID-Lagrangian Method
8
追加された項は正定なのでダンピングに関する極が増加して収束性を高め
る
現在の制約条件の値に比例項を加える
比例-積分型の方法：
積分-微分型の方法：
微分項が追加されるので即応性があがる
，
比例-積分-微分型の方法：
➝理論的な解析は今後の課題とのこと

フィードバック制御を用いたConstrained RL
9
１次のダイナミクス：
F：方策更新に関する式
h：フィードバック制御則
λ：制御入力
d：コストリミット
勾配法：
従来手法（積分制御）：

PID-Controlled Lagrange Multiplier
10
スケーリングされた目的関数：
，

数値実験
11
実験で使用したアルゴリズム：
PPOとConstraint-Controlled PPO (CPPO)で比較
Safety-Gym:
2019年のOpenAIが発表した安全制約を考
慮する強化学習のベンチマーク問題

比例項による性能改善
12
比例項を加えることで目標コストへの追従性能を改善
Kiを大きくすると（コストの追従性能は良くなるが）Returnは小さくなる

報酬とコストのトレードオフ
13
コストとリターンに対する指標：
比例項を加えることで性能を改善

微分項による性能改善
14
微分項を加えることでコストに対するオーバーシュート・振動を抑制

Reward-Scale Invariance
15
方策勾配にスケーリングファクターを
導入：
報酬をスケールするとKi, Kp, Kdも同時
にスケールされてしまう課題を解決

まとめ
• 未定乗数法λの更新でPID制御則を導入
• Safety-gymで提案手法の性能を検証
• コスト目標値への収束性を改善
所感
• Constrained RLを１次のダイナミクスとして再定義したのがおもしろかった
• 現代制御・ロバスト制御理論と組み合わせることができそうと思った
16

【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

Editor's Notes