Contenu connexe Similaire à [DL輪読会]Learning to Act by Predicting the Future (20) Plus de Deep Learning JP (20) [DL輪読会]Learning to Act by Predicting the Future1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Learning to Act by Predicting the Future (ICLR2017)”
B4 Tatsuya Matsushima, Matsuo Lab
2. 書誌情報
• Learning to Act by Predicting the Future
– Alexey Dosovitskiy, Vladlen Koltun (Intel Labs)
– https://arxiv.org/abs/1611.01779
• last revised 14 Feb 2017 (this version, v2)
– Accepted as ICLR 2017 (Oral)
– Open review
• https://openreview.net/forum?id=rJLS7qKel
– GitHub
• https://github.com/IntelVCL/DirectFuturePrediction
2
7. 強化学習の定式化
• マルコフ決定過程(Markov Decision Process, MDP)
– 𝑆, 𝐴, 𝑃, 𝑅 の組で表現される
• 𝑆 ∋ 𝑠(: 環境の状態集合
• 𝐴 ∋ 𝑎(: エージェントの⾏動集合
• 𝑃: 状態遷移確率(𝑆×𝐴×𝑆上)
• 𝑅 ∋ 𝑟(: エージェントが環境から受け取る報酬 𝑆×𝐴 → ℝ
• Reinforcement Learning: An Introduction (Second edition), Sutton et.al. 7
8. 強化学習の定式化
• ⽅策 𝜋(𝑠, 𝑎)
– エージェントの⾏動パターン
• 収益 𝐺(
– 報酬の和
– 割引報酬和の場合, 𝐺( = ∑ 𝛾5 𝑟(65
7
589 (𝛾: 割引率)
• 状態価値関数 𝑉;
𝑠 = 𝔼;
𝐺(|𝑠( = 𝑠
– ある状態から⽅策𝜋に従って⾏動していったときに得られる収益の期待値
• ⾏動価値関数 𝑄;
𝑠, 𝑎 = 𝔼;
𝐺(|𝑠( = 𝑠, 𝑎( = 𝑎
– ⾏動も条件に加える
8
9. 強化学習の分類(1)
• 価値関数の最適化
– 価値反復を⾏うアルゴリズム
• Ex) Q学習
𝑄 𝐺( 𝑠(, 𝑎( ← 1 − 𝛼 + 𝛼(𝑟(6D + 𝛾 max
HI∈K
𝑄(𝑠(6D, 𝑎L))
– 𝑄値に基づいて⾏動を決める⽅策を採⽤する
• https://github.com/NervanaSystems/coach/blob/master/img/algorithms.png
9
12. (深層学習以後の)主要な研究
• Asynchronous Advantage Actor-Critic (A3C) [Minh+ 2016]
– Actor-Criticの⼀種
• Actor: ⽅策𝜋を使って経験を集める
• Critic: 状態価値関数𝑉(𝑠)を推定する
– ⾮同期的に強化学習を⾏う
• 複数のworkerを使って
– 各workerが⾮共有な勾配を計算
– 蓄積した勾配を利⽤し,
⼀定間隔でグローバルパラメータを更新
– グローバルパラメータで
各workerのパラメータを更新
• https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-
asynchronous-actor-critic-agents-a3c-c88f72a5e9f2
12
13. 強化学習のタスクの難しさ(1)
• 部分観測マルコフ決定過程(Partially Observable Markov Decision Process, POMDP)
– 環境の真の状態をエージェントが直接観測できない意思決定モデル
• 実世界ではエージェントにシステムの全ての状態が与えられることは稀
– 𝑆, 𝐴, 𝑃, 𝑅, Ω, 𝑂 の組で表現される [Hausknecht+ 2015]
• 𝑆 ∋ 𝑠(: 環境の真の状態集合(エージェントは直接観測できない)
• 𝐴 ∋ 𝑎(: エージェントの⾏動集合
• 𝑃: 状態遷移確率(𝑆×𝐴×𝑆上)
• 𝑅: エージェントが環境から受け取る報酬 𝑆×𝐴 → ℝ
• Ω ∋ 𝑜( : 観測集合
• 𝑂: 観測確率(𝑆×𝑂上)
– エージェントの観測が関係するため,MDPの問題より難しい
13
14. 強化学習のタスクの難しさ(2)
• 強化学習のベンチマークとしてよく使われるゲーム
– Atari
• ブロック崩しやスペースインベーダーなど
• フレーム⾃体は時間情報を持たないので,不完全知覚でありPOMDPに属する
– ボールの速度などがわからない
• しかし,実は4フレーム観測するとMDPになる[Hausknecht+ 2015]
– DQNで4frameを⼊⼒にすることで解ける
– ViZDoom
• FPSゲーム
• 視野が存在するため不完全知覚であり,POMDPに属する
• 実世界の複雑性に近い
14
20. モデルの定式化(2)
• 時刻𝑡 + τD, 𝑡 + τa, ⋯ 𝑡 + τcと時刻𝑡の指標の差を𝐟とする
𝐟 = 𝐦(6ef
−𝐦(, 𝐦(6eg
−𝐦(, ⋯ , 𝐦(6eh
−𝐦(
• エージェントが達成するどんなゴールも𝑢(𝐟; 𝐠)の最⼤化で表現できる
と仮定
𝑢(𝐟; 𝐠) = 𝐠 ⊺ 𝐟
– 𝐠はゴールに関するパラメータ
20
24. モデルのアーキテクチャ(2)
• 2つの流れに分ける
• fully-connectedでまるっと𝐩を予測するより良いらしい
– Expectation Stream 𝐸 𝐣
• the average of feature measurement over all potential actions
– Action Stream 𝐴 𝐣
• fine difference between actions
𝐴 𝐣 = 𝐴D 𝐣 , ⋯ , 𝐴{ 𝐣 𝑤ℎ𝑒𝑟𝑒 𝑤 = 𝒜
• 平均が0になるように正規化
𝐴s 𝐣 = 𝐴s 𝐣 −
1
𝑤
v 𝐴| 𝐣
{
|8D
• 予測は以下のようになる
𝐩 = 𝐩Hf, ⋯ , 𝐩H} = 𝐴D 𝐣 + 𝐸 𝐣 , ⋯ , 𝐴{ 𝐣 + 𝐸 𝐣
24
28. シナリオ
• D1: 正⽅形の部屋で救急箱を集める
• D2: 迷路で救急箱を集めて,毒薬を避ける
• D3: 迷路で救急箱と弾薬を集めて,敵から⾝を守る
• D4: もっと複雑な迷路で救急箱と弾薬を集めて,敵から⾝を守る
– https://www.youtube.com/watch?v=rPKwMWFo7Nk
28
29. 設定
• ⾏動
– 前進,後退,右向く,左向く,右平⾏移動,左平⾏移動,⾛る,撃つ
– この組み合わせ(2• = 256通りある)
• 指標
– 弾薬の数,体⼒,倒したモンスターの数
• ランダム探索時の標準偏差で割った値(それぞれ7.5, 30,1)を利⽤
• 1,2,4,8,16,32step後の予測を⾏う
• ゴール: 𝐠 = (0.5,0.5,1)
• 訓練
– 525step (1分相当)経過するか,体⼒が0になったら1episode終了
– 5000万step⾏う
29
31. 実験2: 環境に関する汎化の検証
• 環境の変化にどれだけ対応できるか調べた
• D3とD4についてそれぞれランダムに100種類のテクスチャの迷路を
作り,90を訓練に10をテストに利⽤した.
– それぞれD3-tx,D4-txと呼ぶ
• 訓練の迷路が変化した⽅が,テストが新しい迷路の場合に良い成績
– 環境に関する汎化ができている
• D4-tx-Lは⼤きなネットワークでの実験結果(Appendix. A)
31
32. 実験3: ViZDoom Competition
• ViZDoomのコンペに参加(2016年)
– 訓練時には知らない環境でテストという条件(Full Deathmatch track)
• D4-tx-Lの変形版で参加して優勝
– 2位に50%以上の差をつける
• 2位のモデルは,recurrentな構造を持ち(LSTM),補助的な教師あり学習を⾏うモデル
[Lample+ 2016]
32
39. 参考⽂献
論⽂
• [Hausknecht+ 2015] Deep Recurrent Q-Learning for Partially Observable MDPs
• [Kulkarni+ 2016a] Hierarchical Deep Reinforcement Learning: Integrating Temporal
Abstraction and Intrinsic Motivation
• [Kulkarni+ 2016b] Deep Successor Reinforcement Learning
• [Lample+ 2016] Playing FPS Games with Deep Reinforcement Learning
• [Minh+ 2015] Human-level Control through Deep Reinforcement Learning
• [Minh+ 2016] Asynchronous Methods for Deep Reinforcement Learning
39
42. Sutton本輪読会
• “Reinforcement Learning: An Introduction” (Second edition)
– http://incompleteideas.net/sutton/book/the-book-2nd.html
– 先⽇(11/5),完成版ドラフトがアップロードされた
• 輪読会をします
– 毎週⽔曜⽇17:00-19:00 @東⼤⼯学部2号館9F 92C2 (初回は11/22)
– ⽇本⼀早い輪読会(たぶん)
– 強化学習の理論に関する内容
• 参加希望の⽅は松嶋までご連絡ください
42