[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Model-Based Reinforcement Learning via Meta-Policy
Optimization
Keno Harada, UT PSI 3rd

書誌情報
• タイトル: Model-Based Reinforcement Learning via Meta-Policy
Optimization(CoRL 2018)
• 著者: Ignasi Clavera, Jonas Rothfuss, John Schulman, Yasuhiro Fujita, Tamim
Asfour, Pieter Abbeel (UC Berkeley, KIT, OpenAI, PFN)
• ICMLでのPieter Abbeelのセッション中に紹介(しかしskipされていた)
– Some of our Explorations of Exploration in RL
• ダイナミクスモデル学習の探索
• その他:
– Arxiv: https://arxiv.org/pdf/1809.05214.pdf
– Webpage: https://sites.google.com/view/mb-mpo/home?authuser=0
– Talk: https://www.facebook.com/icml.imls/videos/2265408103721327/
– Slides:
https://www.dropbox.com/s/4t1a3dpldgqtqk6/2019_06_15_ICML%20Exploration%20in%20RL%
20workshop.pdf?dl=0
– 松嶋さん評価: 星5つ
2

ICML セッションより
310分でレゴブロックを積むタスクを学習したらしい(論文中には言及なし, 動画も最後まで見れなかった)

アジェンダ
1. 背景
2. 概要
3. 提案手法
4. 実験結果
5. まとめ
6. 疑問点
4

背景
背景
• モデルフリー
– 良い性能を発揮するが学習にdataが大量に必要
• NN使うとよりデータが必要に
• Roboticsのようなtaskではdataを集めるのに時間がかかる
• モデルベース
– 環境のダイナミクスをモデル化し学習を効率的に
– 正確な環境のダイナミクスの学習難しい
– モデルバイアス問題
• ダイナミクスモデルの学習が不十分なため良い方策を学習できない
5

背景
モデルバイアス問題
6
Image from http://mlg.eng.cam.ac.uk/pub/pdf/DeiRas11.pdf
Image from
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-
12.pdf

背景
ダイナミクスモデルの不正確性への対応策(先行研究)
• ダイナミクスモデルのアンサンブルを使用した方法
– Model-Ensemble Trust-Region Policy Optimization(ME-TRPO)など
• オンライン適応していく方法
– One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and
Neural Network Priorsなど
• 困難なタスクではうまくいかない
• Model Predictive Control
– 各ステップにおいてre-planning
– 計算コストの大きさや行動の評価の難しさ
• Robust policy optimization
– どのようなダイナミクスモデルでもよく立ち回るような方策を学習
– over-conservative(?)な方策になりがち
7

概要
提案手法: Model-Based Meta-Policy-Optimization(MB-MPO)の気持ち
• ダイナミクスモデルが正しく学習されるという望み?前提?から依存性をなく
す
• ダイナミクスモデルを複数学習し, その中の任意のモデルに対して1step方
策勾配を更新すれば適応するようなpolicyをメタ学習する
• 異なるダイナミクスモデルでも最適な行動をとる方策を学ぶのではなく, ダ
イナミクスモデルに対して1step更新方策をとることで対応させ, メタpolicyが
アンサンブル全体において一貫性のあるダイナミクスの予測を内部化する
よう方向づける
– ???
8

概要
モデルベース強化学習
• Dyna-style
– リアルデータを集めダイナミクモデルを学習し, そのモデルが仮想データを作成し
(simulationし)それを元に方策を更新
• ME-TRPO, SLBO, MB-MPO
• Policy Search with Backpropagation through Time
– ダイナミクスモデルの勾配を使って方策を更新
• PILCO, iLQG, GPS, SVG
• Shooting Algorithm
– Model predictive control系
• RS, MB-MF, PETS-RS, PETS-CEM
9

概要
• メタ学習:
– 新しいシナリオやタスクに少数のサンプルでうまく適応するようなモデルを学習
• メタ強化学習
– 報酬関数あるいは遷移関数が異なるMDPタスクの集合から一つのMDPタスクを取り
出した時に素早く最適方策を学ぶような学習アルゴリズムを学ぶ
10
Image from
https://drive.google.com/file/d/1DuHyotdwEAEhmuHQWwRosdiVBVGm8uYx/view

概要
MAML: どんなtaskにも数stepで最適化できるような共通の初期パラメータを
求める
– 近藤さんの過去資料https://www.slideshare.net/DeepLearningJP2016/modelagnostic-metalearning-for-fast-adaptation-of-
deep-network
11
Slide from
https://drive.google.com/file/d/1DuHyotdwEAEhmuHQW
wRosdiVBVGm8uYx/view

提案手法
ダイナミクスモデルの学習
• それぞれのモデル初期値ランダム, 学習に使うデータも異なるように設定
• 適応stepを経た方策でサンプルデータを集め, ダイナミクスモデルの学習に
使用
13

提案手法
• ダイナミクスモデルの学習
14

提案手法
ダイナミクスモデルを使った方策のメタ学習
• Gradient-based メタ学習のMAMLを使用
• 環境のダイナミクスが異なるタスク間においてのメタ学習問題
– Reward functionは同じ
• 方策更新の際にはダイナミクスモデルを使用してroll-outを行い報酬を計算
し更新
15

提案手法
ダイナミクスモデルを使った方策のメタ学習
16
TRPO
VPG

実験結果
• 既存のモデルベース・モデルフリーの手法と比べてサンプル効率・性能は
どうか
– Mujocoの6つのタスクで検証
– https://sites.google.com/view/mb-mpo/videos?authuser=0
• ダイナミクスモデルの不確実性と方策の可塑性
• MB-MPOの頑健性
17

実験結果(モデルフリーとの比較)
18

実験結果(既存モデルベースとの比較)
19

実験結果(ダイナミクスモデルの不確実性と方策の可塑性)
20
[0, 0]から離れるにつれ低い精度予測と高いKL-divergence

実験結果(MB-MPOの頑健性)
21
ダイナミクスモデルの予測にノイズを加えた実験の比較(half-cheetah)

実験結果(MB-MPOの頑健性(?))
22
α=0.001とα=0(no-adapt)の比較
Planningを行なっているわけではな
いのに何故この実験を?
メタ学習の必要性を言いたいのか?

まとめと今後の展望
• 複数のダイナミクスモデルを使い方策をメタ学習するMB-MPOを提唱
• モデルフリー並みの性能をよりsample efficientに出す
• 既存のモデルベースで課題であったモデルバイアス問題への新たな対応
策
• 複数のダイナミクスモデルを使用するのではなくベイジアンNNを使ってダイ
ナミクスモデルを学習する
• Real-worldロボティクスへの応用(すでに進行中?)
23

Benchmarking Model-based Reinforcement Learning(7/3)
24
いくつかのタスクでmodel basedで最高性能
Long horizon complex domainsにはあまりいい性能
を示さない

Tailored data collection
• 適応step後のpolicyでリアルデータをサンプルしているため集められるデー
タが多様(という主張)
– Post-update方策がoverfit, ダイナミクスモデルの予測が正しく予測できていないとこ
ろのサンプルを集める(という主張)
25

[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization

Similaire à [DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization (12)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (10)

[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization