[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"SimPLe", "Improved Dynamics Model", "PlaNet"
近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用
Presentater: Kei Akuzawa, Matsuo Lab. D1

発表のモチベーション&目的
• モチベーション: モデルベースRL，気づいたら進展してないか？
• PlaNet: D4PGの50+倍のサンプル効率（DeepMind Control Suit）
• SimPLe: Rainbowの2~10+倍（Atari）
• SOLAR: PPOの40倍（Reacher），および実機画像データ2時間(Lego block stacking)
• ……
※ここでのサンプル効率=一定の性能を出すために必要な真の環境とのInteraction数
• 目的: 進展の背景に何があるのかをサーベイすること
• 切り方1: 環境モデル（世界モデル）として働く系列モデルの進展(発表の中心)
• 切り方2: 系列モデルをどうRLに組み入れるかの進展
• （鈴木さんの資料のp10で言われていること:
https://www.slideshare.net/masa_s/ss-97848402 ）

AGENDA
• 前置き
• モデルベースRLと環境モデル
• 環境モデルのRLへの活用法
• 環境モデルの系列モデリングとしての区分
• 論文紹介
• SimPLe
• Improved Dynamics Model
• PlaNet

モデルベースRLと環境のモデル
• モデルベースRLの定義（この発表での）:
• 現在の状態と行動から次の状態（と得られる報酬）を予測する環境モデルを
何らかの形（次ページ）でRLに組み込んだアルゴリズム
• Notation:
• 𝑠𝑡: 状態．POMDPでは観測されない．
• 𝑜𝑡: 観測．MDPでは𝑠𝑡に一致．
• 𝑎 𝑡: アクション
• 𝑟𝑡: 報酬
• 𝑜𝑡+1 = 𝑓(𝑜𝑡, 𝑎 𝑡): 環境モデルの基本形

環境モデルのRLへの活用法
• 本発表ではKe+2019, Kaiser+2019を参考に発表者が活用法を以下に区分
1. 方策の改善
• Dyna: 環境モデルをシミュレーターとして方策の学習に利用
• I2A: 環境モデルの不正確さ自体ををDNNに丸投げする
• PILCO: 解析的な方策勾配の活用
• GPS: 環境モデルから作ったLocalなコントローラにNNをfitting
• MPC: シミュレーター上で報酬が最大になるような行動の選択
• etc.
2. 表現学習
• 環境モデルを用いて観測𝑜𝑡の低次元表現や，過去未来の観測𝑜の情報を十分含
む表現を獲得し，Policy Networkのサンプル効率性を高める
3. 探索への活用
• モデルの予測の尤度や不確実性を用いて，効率的な探索を行う

環境モデルの系列モデリングとしての区分
• Buesing+2018を参考に環境モデルとして用いられる系列モデルを以下の3つに区分
• Recurrent Autoregressive Models (RAM) (=Observation Dependent)
• State Space Models (SSM) (=Observation Independent)
• その他 (Gaussian Process(PILCO系), Local Linear Models(GPS系), Feedforward NN, …)
• 注1: モデルベースRL以外のコミュニティではARM/ SMMという分け方は適当でない
• Buesing+2018では観測について自己回帰的であるモデル(observation dependent）
=ASRとそうでないモデル=SSMを区分するためにASR/SSMを採用している
• 例1. AR(p)モデルはSSMの一種
• 例2. Fraccaro+2016 (SRNN)はSSMと言いつつObservation Dependent
• 注2: 本発表ではモデルベースRLの中でもPILCO系，Guided Policy Search系は扱わない
• サーベイが追いつきませんでした

環境モデルの系列モデリングとしての区分
• RAM: 過去のすべての観測から次の観測を逐次的に予測
• 過去の観測を集約するリカレント構造を持つ
• ℎ 𝑟 = 𝑓(ℎ 𝑟−1, 𝑎 𝑟−1, 𝑜 𝑟−1)．要はRNN
• 高品質な生成が可能
• SSM: 観測の背後にある状態だけから観測が決まる．
• 高速（観測の逐次的な生成が必要ない）
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 =
𝑟=𝑡+1
𝑡+𝑘
𝑝(𝑜 𝑟|𝑓(𝑜1:𝑟−1, 𝑎1:𝑟−1))
𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 =
𝑟=𝑡+1
𝑡+𝑘
𝑝 𝑠𝑟 𝑠 𝑟−1, 𝑎 𝑟−1 𝑝 𝑜 𝑟 𝑠𝑟 𝑝 (𝑠𝑡|𝑜≤𝑡, 𝑎<𝑡)𝑑𝑠𝑡:𝑡+𝑘

付録: 環境モデルの活用法 x 系列モデルのタイプによる区分
Recurrent Autoregressive Models State Space Models その他
Sequential
Modeling
(non-RL)
Bayer+2014 (STORNs)
Chung+2015 (VRNN)
Oh+2015
Finn+2016 (CDNA)
Goyal+2017 (Z-forcing)
Babaeizadeh+2018 (SV2P)
Denton+2018 (SVG-L(F)P)
Kaiser+2018 (DSAE)
Krishnan+2015 (DKF)
Fraccaro+2016 (SRNN)
Chiappa+2017 (RES)
Hsu+2017 (FHVAE)
Karl+2017 (DVBF)
Li+2018 (DS-AE)
Gregor+2019 (TD-VAE)
Oh+2015
Oord+2017 (VQ-VAE)
RL
方策
改善
Buesing+2018
Ebert+2018
Ke+2019
Buesing+2018
Hafner+2019 (PlaNet)
Zhang+2019 (Solar)
Deisenroth+2011 (PILCO)
Levin+2014 (GPS+iLQG)
Weber+2017 (I2A)
Kaiser+2019 (SimPLe)
表現
学習
Ke+2019 Watter+2015* (E2C)
Ha+2018* (World Models)
Finn+2016
Oh+2017
探索 Chiappa+2017 (RES)
Ke+2019
Oh+2015
*: Two-Step
※本日の発表に関係するものを中心に掲載．網羅性はありません．

一本目: SimPLe
• 書誌情報:
• タイトル: Model Based Reinforcement Learning for Atari
• 著者: Lukasz Kaiser, Mohammad Babaeizadeh, Piotr Milos, Blazej Osinski, Roy H
Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey
Levine, Ryan Sepassi, George Tucker, Henryk Michalewski
• グループ: GoogleBrain等
• 投稿先: arixv2019, ICML2019 under review
• 概要:
• Atariの多くのゲームでRainbowよりも高性能かつサンプル効率性2~10倍を達成
するモデルベースRLを提案

SimPLe: 環境モデル．？？？

SimPLe: 環境モデル側から見ると……
• 環境モデル:
• アーキテクチャはOh+2015で提案されたFeedForwardモデル
• Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる
• Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する
• 環境モデルのRLへの活用法:
• 単に高速なシミュレーターとして利用し，環境モデル内でPPOを学習

SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oord+2017
(VQ-VAE)
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction

SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction
Oord+2017
(VQ-VAE)

Oh+2015, Action-conditional video prediction using deep networks in atari games
• Atariを訓練データに用いてaction-conditionalなvideo predictionを行う
• FeedforwardモデルとRecurrentモデルの二つを提案
• auto-encoderのように出力の画像はDeconvでbottleneckから生成
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
FeedForwardモデル Reccurentモデル
𝑜𝑡−2
生成過程：
𝑝(𝑜𝑡|𝑎 𝑡−1, 𝑜𝑡−4:𝑡−1)
生成過程
𝑝(𝑜𝑡|ℎ 𝑡 = 𝑓 𝑜𝑡−4:𝑡−1, 𝑎 𝑡−1, ℎ 𝑡−1 )
※𝑜𝑡−4:𝑡−2からℎ 𝑡のパスは省略

Oh+2015 Video Predictionの実験:
• Atariの動画を正確に予測できることを示した
• ゲームにもよるが，50~200ステップの予測でも見た目は大きく崩れない
• この時代から，AtariのVideo Prediction自体はそこそこできていた
一例: 174ステップ目の予測

Oh+2015 RLの実験:
• 環境モデルをシミュレーターとして用いる実験（SimPLeと似てる）
1. 最初の真の1~100フレームを元に環境モデルが1~100フレームを生成（図の横軸）
2. 生成したフレームでDQNを訓練（Rewardは真の環境から？？）
• 環境モデルで長期の系列を生成するとDQNの精度が落ちる
• （見た目が本物らしいからといってRLに使えるわけではない？ c.f. 前項の敵の数）
• ゲームにも依るがFeedForwardとRARで結果はあまり変わらない（Atariが簡単だから？）

Finn+2016 (CDNA), Unsupervised learning for physical interaction through video prediction
• Oh+2015のRecurrentモデルの拡張
• 𝑜𝑡のpixel valueを直接生成するのではなく，𝑜𝑡−1からのpixel motionを予測
• 未知の物体に汎化しやすい
• Recurrentモデルと違ってさりげなく𝑎からℎのパスになってる
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
1期前の観測にPixel Motionを加える

Finn+2016 (CDNA) アルゴリズム補足
DNNで出力されたパラ
メータをカーネルとした
畳み込みでpixel motion
をモデル化

Finn+2016 (CDNA)
• 実験: 実機のTrajectoryを用いて検証
• Oh+2015と違い10step程度予測可能
Oh+2015
提案法

Babaeizadeh+2018 (SV2P), Stochastic variational video prediction
• CDNAに潜在変数を導入し，確率的な予測を可能にした
• 潜在変数がtime-stepに依存する・しない場合で比較
• 訓練時はVAEの推論分布𝑞(𝑧𝑡|𝑜1:𝑇)から，生成時はpriorから 𝑧𝑡 をサンプリング
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧Time step独立
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
Time step依存

Babaeizadeh+2018 (SV2P) 補足系列VAEの推論分布
• VAE(amortized variational inference)を系列モデリングに用いる場合，用途に応じて
𝑞(𝑧𝑡| ∙)を以下のように設計することが多い（気がする）
1. 𝑞(𝑧𝑡|𝑜1:𝑇): smoothing(-like)．
• 観測の系列がすべて与えられた前提で現在の潜在変数𝑧𝑡を推論
2. 𝑞(𝑧𝑡|𝑜1:𝑡): filtering．
• 現在までの観測𝑜1:𝑡を使って現在の潜在変数𝑧𝑡を推論
3. 𝑞(𝑧𝑡+1|𝑜1:𝑡): predictive．
• 現在までの観測𝑜1:𝑡を使って未来の潜在変数𝑧𝑡+1を推論
4. 𝑞(𝑧𝑡|𝑜𝑡+1:𝑇): backward.
• 未来の観測𝑜𝑡+1:𝑇を使って現在の潜在変数𝑧𝑡を推論
• SV2Pでは生成時に𝑧𝑡をPriorから生成するのではなく𝑞(𝑧𝑡+1|𝑜1:𝑡)から生成すること
も検証したが，訓練がうまくいかない
• そもそも自己回帰なので潜在変数が無視されやすく（Posterior collapse），
smoothing-likeのようにリッチな情報を与える必要がある

Babaeizadeh+2018 (SV2P) 実験
• 確率的な予測を行うことで，動いている物体がぼやけにくくなる（CDNAのように
決定的な予測を行うとぼやけやすくなる）

Kaiser+2018 (DSAE), Discrete autoencoders for sequence models
• 概要:
• 系列モデルに離散的な潜在変数を導入（Discrete Sequential Autoencoding）
• 既存手法（Gumbel-softmax）よりもハイパラにロバストであることを主張
• 提案手法:
• オートエンコーダーの中間層が離散になるようにSaturating Sigmoidを入れる
• 𝜎′
𝑥 = max(0, min(1, 1.2𝜎 𝑥 − 0.1)
• Saturating Sigmoidは勾配を流せるので，普通にオートエンコーダ訓練するだけ
• 勾配を流す，訓練を安定させるための細かい工夫は色々ある．

SimPLe: 環境モデル側から見ると……（再掲）
• アーキテクチャはOh+2015で提案されたFeedForwardモデル
• Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる
• Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する
• 環境モデルの用途:
• 単に高速なシミュレーターとして利用し，環境モデル内でPPOを学習

SimPLe: 環境モデルの詳細
• 生成モデルは𝑝(𝑜𝑡|𝑜𝑡−4:𝑡−1)，推論分布は𝑞 𝑧𝑡|𝑜𝑡−4:𝑡
• なぜOh+2015のFeedfowardか？ => Oh+2015の実験結果でもあったように，Atari
程度ならリカレントな構造はいらないから？
• 推論分布にSaturating Sigmoidを挟んで，𝑧𝑡を離散化
• 生成時は推論分布が使えない（推論に未来の観測が必要）のでLSTMから潜在
変数をサンプリング（後述）
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑜𝑡−1

SimPLe: 離散化の詳細
• なぜ𝑧𝑡を離散化するのか
• VAEなのでKL項𝐷 𝐾𝐿(𝑞(𝑧| ∙)||𝑝(𝑧| ∙))が必要だが，この係数はsensitive
• （実験に使う20+個の）ゲームごとにハイパラ調整したくない
• Atariの場合係数は[1e-5, 1e-3]くらいだが，そんなに係数小さいとテスト時に
Priorからサンプリングする時に困る（PriorとPosteriorが近づかない）
• 𝑧𝑡を離散化する際の疑問
• 変分下界のKL項をどうやって計算する？
＝＞定数項なので最適化には関係ない（もはやそれはVAEなのか……？）
• テスト時にどうやって𝑧𝑡をサンプリングする？
＝＞学習済みの環境モデルの推論分布𝑞から𝑧1:𝑇をサンプリングし，
その𝑧1:𝑇を予測するようなLSTMを訓練する
どちらも，
VQ-VAEと同じ処理（明示的には書いてないが，たぶんそう）

SimPLe: アーキテクチャ詳細

Simple: 環境モデルのRLへの活用: 単なるシミュレーター
Oh+2015 のRLの実験とほぼ同じ
ただし環境モデルと方策の訓練を交互に行う，報酬を予測するなどが異なる

SimPLe: 実験
• 環境: Atari
• SOTAなモデルフリーで一般に解けるとされている26個のゲーム
• ベースライン:
• Rainbow
• PPO
• 提案手法:
• 真の環境と100K（現実の2時間）のインタラクションを行い環境モデルを訓練
• 環境モデルの中で15Mのインタラクションを行いPPOを訓練

SimPLe: 実験-サンプル効率性
• 青いバーは，100Kサンプルを使った
提案手法と，素の（環境モデルを用
いない）PPOが同じ性能に到達する
までに必要なサンプルサイズ（真の
環境とのインタラクション）を表す
• PPOが提案手法と同じ精度を達成す
るためには，2~10倍のサンプルサイ
ズが必要

SimPLe: 実験-離散潜在変数の効果
• 青は潜在変数なし，赤は連続潜在変数あり
• 離散潜在変数の提案手法が一番良い
• 連続潜在変数のときのKL項の重みは言及なし？

SimPLe: 実験: リカレントの効果
• 詳細が書かれてないので自信がない
• おそらく青がrecurrentかつ（連続 or 離散）
潜在変数あり，赤がリカレントかつ潜在変数
なし
• 要は，再帰的な構造はいらないということ？
• Oh+2015と似た結果？
• Atariが簡単だから？

SimPLe: 感想
• 系列モデルも，そのRLへの組み込み方も本当にシンプル
• Atari程度なら環境を完全に学習し切れてしまうこと，そしてその環境モデル
が有用であることを示した
• Policy Networkへの入力を 𝑜にしているため表現学習としての要素が抜けてしまっ
ているのが勿体無い
• KL項の重みは結構面倒なことが多いので，Saturating Sigmoidが本当にハイパラロ
バストなら良さそう

Improved Dynamics Model: 概要
• 書誌情報:
• タイトル: Learning Improved Dynamics Model in Reinforcement Learning by
Incorporating the Long Term Future
• 著者: Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D.
• グループ: モントリオール大学，Facebook等
• 投稿先: ICLR2019
• 概要:
• RAR型の環境モデルに確率的な潜在変数を取り入れる．
• その際補助タスクを取り入れることで潜在変数が未来の情報を保持しやすくし，長期の
予測を可能にする
• Imitation LearningとRLに有効

Improved Dynamics Model: 環境モデル側から見ると……
• z-forcingを素直に使う
• z-forcingの野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-
stochastic-recurrent-networks-nips2017
• Imitatio Learningの場合:
• z-forcingでナイーブにBehaviour Cloning
• RLの場合:
• 潜在変数を用いたMPC
• 探索への活用

潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論，
長期予測のモチベーション

Bayer+2014 (STORNs) and Chung+2015 (VRNN)
• 概要: RARに確率的な変数𝑧𝑡を加えたもの
• STORNではSV2Pとグラフィカルモデル的に（ほぼ）同じ
• 違い：確率的な揺らぎが内生的か外生的か
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
STORN,
生成過程: 𝑡
𝑇
𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡)
推論分布: 𝑞(𝑧𝑡|𝑜1:𝑡)
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
VRNN
生成過程:
𝑡
𝑇
𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡|𝑜<𝑡−1, 𝑧<𝑡−1)
推論分布: 𝑞(𝑧𝑡|ℎ 𝑡−1, 𝑜𝑡)
※ 図の矢印は
生成過程のみ表示

Chung+2015 (VRNN)
• 実験: VRNNの方がSTORNに比べてspeech modelingで尤度が高い
• （余談: じゃあSV2Pも𝑧𝑡のprior変えた方が良いのでは…… => Denton+2018）
STORNに相当

潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論，
Posterior Collapse対策の
モチベーション

Goyal+2017 (Z-forcing)
• 問題: 自己回帰モデルでは潜在変数が無視されやすい（Posterior Collapse）
• 提案: 𝑧𝑡が未来の情報を持つような推論分布𝑞(𝑧𝑡|𝑜1:𝑇)を作ると無視されにくい
• SSMの文脈でFraccaro +2016 (SRNN)によってすでに提案された
• 実際は𝑜<𝑡 , 𝑜>𝑡をそれぞれRNNで集約
• 加えて𝑧𝑡から𝑜𝑡<を予測するような補助タスクも組み入れる
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑏𝑡−1 𝑏𝑡
※赤色の破線は推論分布

Improved Dynamics Model: 環境モデル側から見ると……（再掲）
• z-forcing
• 野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic-
recurrent-networks-nips2017
• Imitatio Learningの場合:
• z-forcingでナイーブにモデル化できる
• RLの場合:
• 潜在変数を用いたMPC
• （表現学習）

Improved Dynamics Model: 環境の詳細
• z-forcingにアクションデコーダー（青線）を加えただけ
• （さりげなく𝑧𝑡−1から𝑜𝑡−1 のパスも生えている）
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−2 𝑎 𝑡−1

Improved Dynamics Model: 環境モデルのRLへの活用
• Imitation Learningの場合
• actionも含めたz-forcingでエキスパートを学習
• できあがったアクションデコーダーをそのまま方策に用いればよい
• （ただのBehavior Cloningなんだけど，Cloneingを行うモデルがz-forcingで強い）
• RLの場合
• 潜在空間上でのMPC
1. 環境モデル上でMPCを行い潜在変数の系列𝑧1:𝑘を集める（not 𝑎1:𝑘）
2. 𝑧1:𝑘からアクション𝑎1:𝑘を生成する（記載がないが，アクションデコーダーを使う？）
• 潜在変数を経由させることで，直接アクションをサンプリングするよりも安定する（アク
ションデコーダーを介することで分布の外に出ていかないということだと思う）
• 訓練データ収集時は，環境モデルの予測が当たりづらいところを重点的に探索する
• （環境モデルの負の尤度を報酬とした方策を学習すれば良い）

Improved Dynamics Model: 実験
• ベースライン:
• recurrent policy. 𝑝(𝑎 𝑡|𝑜1:𝑡)をLSTMでモデル化してBehavior Cloning
• SeCTAr（Sparse rewardに強い）
• 提案手法の補助タスクなしversion
• 実験環境:
• IL: Mujoco tasks, Baby AI Pick Unlock（長期の予測が大事なPOMDPのタスク）
• RL: Wheeled Locomotion. Sparce rewardのタスク

Improved Dynamics Model: ILの実験
• オレンジ: 提案手法
• 緑: recurrent policy
• 紫: 補助タスクなし提案手法

Improved Dynamics Model: ILとRLの実験
• 長期の予測が重要となる二つのタスクでベースラインを上回る精度
• 提案手法は未来の情報を持つ（と期待される）潜在変数を持っているが，それが
寄与したのではないか

Improved Dynamics Model: 感想
• 実験は小規模だけど，長期の予測が必要なタスクを持ってくるなど設計がうまい
• ILの実験では，InverseRLの手法との比較も欲しかった
• z-forcingみたいにちゃんとした系列モデル立てればBehavior Cloningで十分なの
か知りたい

PlaNet: 概要
• 書誌情報:
• タイトル: Learning Latent Dynamics for Planning from Pixels.
• 著者: Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak
Lee, James Davidson.
• グループ: GoogleBrain等
• 投稿先: arxiv2018, ICML2019 under review
• 概要:
• SSMを環境のモデルとして用いたモデルベースRL．
• SSMをモデルベースRLに適用するのはほぼ先行研究がない
• SSM側での新規の提案の貢献も大きい
• Mujocoタスクを画像入力で行いD4PGの50+倍のサンプル効率を達成
• この輪読会で谷口くんが一度発表済み
• https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-
planning-from-pixels

PlaNet:環境モデル側から見ると……
• 環境モデル
• Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス
の組み合わせ
• 長期の予測を行うための新しい訓練法Latent Over Shootingを提案
• RLへの用途
• 潜在空間上のMPC．SSMなので高速．

PlaNetとその系譜
系列モデル
RL
Ha+2018
(World
Models)
Watter+2015
(E2C)
Two-step SSM
DeepなSSM
Hafner+2019
(PlaNet)
Buesing
+2018
SSM
Fraccaro
+2016
(SRNN)
Krishnan
+2015
(DKF)
決
定
的
な
遷
移
と
の
融
合
Chiappa
+2017
(RES)

Krishnan+2015(DKF) and Fraccaro +2016 (SRNN)
• 環境モデル: SRNNはDKFに決定的なパスを追加した形になっている
• 実験: MNIST，尤度計算（not 生成）など比較的小規模
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
DKF
SRNN

Buesing+2018, Learning and querying fast generative models for reinforcement learning
• 概要:
• SSMを環境のモデルとして用いた初めての論文
• 4つの環境のモデルを比較して，SSMが速度，精度ともに良いことを示した
• RL側は環境モデルをI2Aに活用
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
RAR dSSM-DET
4つの環境モデル

Buesing+2018
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
dSSM-VAE sSSM
4つの環境モデル
※推論は filtering like

Buesing+2018
• RLへの用途: I2A (Weber+2017)を基本
• 環境モデルが不完全であることを前提に，不完全さ自体もDNNに解釈させる
• I2Aの手順
1. 価値関数，方策，ロールアウト用方策を用意する
2. 環境モデル上でロールアウト用方策𝜋(𝑎|𝑠)から𝑎 𝑡:𝑡+𝑘, 𝑠𝑡:𝑡+𝑘をロールアウト
3. ロールアウトした𝑠𝑡:𝑡+𝑘をLSTMで集約し，価値関数と方策への入力とする
4. 価値関数と方策を使ってactor-criticで訓練
5. (ロールアウト用方策の学習法は2つ提案されている）
• 余談: ベースラインのRARにI2Aを使う時は𝑠𝑡:𝑡+𝑘ではなく𝑜𝑡:𝑡+𝑘をロールアウトし
てLSTMで集約しているが……
• ℎ 𝑡:𝑡+𝑘での比較も欲しい？（表現学習としての環境モデル）

Buesing+2018
• MS_PACMANでの実験: SSM+I2Aの必要性をablation studyする
• baseline model-free: actor-critic
• baseline copy model: I2Aへの入力を𝑠𝑡:𝑡+𝑘から 𝑠𝑡に変更

Buesing+2018
• Atariの4つでの実験: sSSMがRARより性能，速度ともに勝ることを示す
• 表の数字は環境のモデルの尤度がbaselineモデルの何倍か
• SSMは観測𝑜を逐次的に生成する必要がないため高速
• baseline: Oh+2015のFeedForwardモデルのVAE版
• 一般的にどれくらいの強さか？

PlaNet:環境モデル側から見ると……（再掲）
• 環境モデル
• Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス
の組み合わせ
• 長期の予測を行うための新しい訓練法Latent Over Shootingを提案
• RLへの用途
• 潜在空間上のMPC．SSMなので高速．

PlaNet: 環境モデルの詳細
• 確率的と決定的，両方の遷移を持つ
• 完全に決定的だとデータの性質に合わない，確率的だと学習が難しいのだと思う
• Fraccaro+2016やBuesing+2018でも軽く言及されていたこと
• 本論文でも実験で示す
• Buesing+2018のsSSMと似ているが，𝑠から𝑧のパスのタイムステップが違う
• どちらが良い等の言及は特になし
𝑠𝑡−1
𝑜𝑡−1, 𝑟𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡, 𝑟𝑡
𝑎 𝑡−1
RSSM

PlaNet: 訓練の詳細
• 複数ステップ先の予測を安定させるためLatent overshootingを提案
• 詳細は谷口くんの資料: https://www.slideshare.net/DeepLearningJP2016/dllearning-
latent-dynamics-for-planning-from-pixels
• 潜在変数に未来の情報を持たせたいというモチベーションは"Improved Dynamics
Model"と似てる？

PlaNet: RLへの用途
• 基本的にはMPC，ただしSSM観測𝑜を逐次的に生成する必要がない
• 観測の逐次的な生成が必要ない点でHa+2018 (world models)と似ているが，あちら
は𝑞(𝑧𝑡|𝑜𝑡) を事前学習して固定する => 潜在変数にマルコフ性がない
𝑠𝑡−1
𝑟𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑟𝑡
𝑎 𝑡−1
𝑜𝑡はいらない
𝑟𝑡を予測して，サンプリングした
アクション系列の良さを測る

PlaNet: 実験
• 提案手法RSSMによるビデオ生成．50ステップ先も生成できる
• SSMによるビデオ生成はKrishnan+2015やKarl+2017のToyなものしかこれまで（発
表者の知る限り）なかったので，(RL抜きの)SSMの研究としてもすごい気がする

PlaNet: 実験
• RLではDeepMiind Control suiteの4つのタスクで実験
• サンプル効率がモデルフリーの手法の50+倍
• タスクによってはモデルフリーの手法（A3C, D4PG）より精度が良い
• 詳細は谷口くんの資料にあります
• https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-

PlaNet: 感想
• SSM(observation-independent)で50ステップ先まで動画を生成できるのはすごい．
• タスクによってはモデルフリーの手法（A3C, D4PG）より精度が良いが，これは
SimPLeのように単にシミュレータとして用いると難しいはず
• SSMなので潜在変数がマルコフ性を満たすよい表現になっている？？
• SSMはRARよりも画像の生成が難しいが，(1)速度による恩恵は大きい(2)マルコフ
性を満たす表現の学習になっているので，いずれ本命になってくるかも

全体まとめと感想
• まとめ
• いろいろあるよVAE x 系列モデル
• 3つのモデルベースRLの論文を題材に，VAE x 系列モデルの進展がモデルベー
スRLの進展を支えていることを紹介した
• 感想:
• 系列モデルをより複雑な動画にスケールさせるための研究がこれからさらに
増えてくるだろうし，それを利用すればより高度なRLタスクが解けるように
なっていくはず

参考にさせていただいた資料
• 強化学習ロボティクスの動向サーベイ, 島田さん,
https://speakerdeck.com/caprest/di-33hui-qiang-hua-xue-xi-akitekutiyamian-qiang-hui-
qiang-hua-xue-xi-roboteikusufalsedong-xiang-falsesabei
• （今日は紹介できなかったが）PILCOやGPSの解説がある貴重な日本語資料
• TD-VAEの輪読資料, 鈴木さん, https://www.slideshare.net/masa_s/ss-97848402
• VAE x 系列モデルがまとまっている
• PlaNetの輪読資料, 谷口くん,
https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-
• z-forcingの輪読資料, 野中さん,
https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic-
recurrent-networks-nips2017

References
• Marc Deisenroth and Carl E Rasmussen. Pilco: A model-based and data-efficient approach to policy search. ICML2011
• Levine, Sergey and Abbeel, Pieter. Learning neural network policies with guided policy search under unknown dynamics. NIPS2014
• Justin Bayer and Christian Osendorfer. Learning stochastic recurrent networks. arXiv2014
• Rahul G Krishnan, Uri Shalit, and David Sontag. Deep kalman filters. arXiv2015.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images.
NIPS2015
• Chung, Junyoung, Kastner, Kyle, Dinh, Laurent, Goel, Kratarth, Courville, Aaron C, and Bengio, Yoshua. A recurrent latent variable model for sequential
data. NIPS2015
• Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L Lewis, and Satinder Singh. Action-conditional video prediction using deep networks in atari games.
NIPS2015
• Finn, C., Tan, X. Y., Duan, Y., Darrell, T., Levine, S., and Abbeel, P. Deep spatial autoencoders for visuomotor learning. ICRA2016
• Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential neural models with stochastic layers. NIPS2016
• Chelsea Finn, Ian Goodfellow, and Sergey Levine. Unsupervised learning for physical interaction through video prediction. NIPS2016
• Oh, J., Singh, S., and Lee, H. Value prediction network. NIPS2017
• Hsu, W.-N., Zhang, Y., and Glass, J. Unsupervised learning of disentangled and interpretable representations from sequential data. NIPS2017
• Anirudh ALIAS PARTH Goyal, Alessandro Sordoni, Marc-Alexandre Coˆte ́, Nan Ke, and Yoshua Bengio. Z-forcing: Training stochastic recurrent networks.
NIPS2017

References
• Weber, T., Racanière, S., Reichert, D. P., Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., et al. Imagination-augmented agents for deep
reinforcement learning. NIPS2017
• van den Oord, A., Vinyals, O., and Kavukcuoglu, K. Neural discrete representation learning. NIPS2017.
• Silvia Chiappa, Se ́bastien Racaniere, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. ICLR2017
• Karl, M., Soelch, M., Bayer, J., and van der Smagt, P. Deep variational bayes filters: Unsupervised learning of state space models from raw data. ICLR2017
• Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R. H., and Levine, S. Stochastic variational video prediction. ICLR2018
• David Ha, Jurgen Schmidhuber. Recurrent World Models Facilitate Policy Evaluation. NIPS2018
• Yingzhen Li, Stephan Mandt. Disentangled Sequential Autoencoder. ICML2018
• Denton, E. and Fergus, R. Stochastic video generation with a learned prior. ICML2018
• Kaiser, L. and Bengio, S. Discrete autoencoders for sequence models. arxiv2018
• Lars Buesing, Theophane Weber, Sebastien Racaniere, SM Eslami, Danilo Rezende, David P Re- ichert, Fabio Viola, Frederic Besse, Karol Gregor, Demis Hassabis, et al.
Learning and querying fast generative models for reinforcement learning. arxiv2018
• Gregor, K. and Besse, F. Temporal difference variational auto-encoder. ICLR2019
• Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D. Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the
Long Term Future. ICLR2019
• Ebert, F., Finn, C., Dasari, S., Xie, A., Lee, A., and Levine, S. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arxiv2018
• Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson. Learning Latent Dynamics for Planning from Pixels. arxiv2019
• Kaiser, L., Babaeizadeh, M., Milos, P., Osinski, B., Campbell, R.H., Czechowski, K., Erhan, D., Finn, C., Kozakowski, P., Levine, S., Others: Model-Based Reinforcement
Learning for Atari. arxiv2019
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levine. SOLAR: Deep Structured Representations for Model-Based
Reinforcement Learning. arxiv2019

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

Similaire à [DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用 (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (11)

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

Notes de l'éditeur