SlideShare une entreprise Scribd logo
1  sur  68
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA	Co.,	Ltd.	
システム	&	デザイン本部	
AI	システム部	AI	研究開発グループ	
甲野	佑
NIPS2017読み会@PFN:	
Hierarchical	Reinforcement	Learning	+	α	
@	NIPS2017
甲野	佑	
所属	:	株式会社ディー・エヌ・エー	AI	システム部	AI	研究開発グループ	
出⾝	:	東京電機⼤学	(学部〜博⼠)	
研究	:	強化学習	+	神経⽣理・認知モデル	
最近の興味:強化学習の進化=⾏く末,階層型強化学習	
〜	2017年3⽉:	⼤学で強化学習の研究	
2017年4⽉〜	:	強化学習を応⽤したゲーム	AI	の研究開発	
対象ゲーム:	
 逆転オセロニア	=	潜在的⾏動選択肢数が増えていく⼆⼈零和ゲーム
⾃⼰紹介
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
3
HRL@NIPS	2017		
階層型強化学習	(HRL)	ワークショップがついに開催	
WS	of	HRL	と本会議の関連論⽂をいくつか紹介	
趣旨
⽬次
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
4
1.	強化学習	(RL)	とは?	
2.	階層型強化学習	(HRL)	とは?	
3.	HRL	の効能と懸念		
4.	HRL	の基本的な学習フレーム	
5.	HRL	関係の論⽂紹介	(本題)	
	オマケ.	いくつか通常	RL	の論⽂紹介	(時間があれば)
強化学習とは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
5
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
6
を最⼤化させる
を獲得するのが⽬的
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
7
が⼤きく変わるのが厄介
を更新・変化すると
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
強化学習とは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
8
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
(基本的には)	
課題が	MDP	であることと,あらゆる状態への訪問が前提	
→	かなり厳しい制約
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
強化学習とは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
深層学習との融合	(e.g.	DQN)	で価値関数の関数近似が可能
最近の発展は概ね関数近似課題として学習の効率化を重視		
 -	状態遷移サンプルを使いまわせるように	
 -	ターゲットの安定性		
  -	複数ステップの報酬	
  -	場当たり的な	POMDP	対応
画⾯認識	
(CNN)
⾏動価値評価	
(強化学習)
ゲーム画⾯	
(環境)
⾏動
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
10
関数近似課題として強化学習を解く過程で	
- LSTM	による時系列の圧縮	=	POMDP	対処	
- Off-policy,	On-policy	の関係	→	統合	TD(λ)	の理論発
展	
- 複雑な強化学習の研究の進展	
- モデルベースとの融合	
- 階層型強化学習	
- 暗黙的にサブゴールが学習可能に?	
→	より⼈間的な⾼度な強化学習の⻑年の課題に光が
強化学習とは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
11
細かな意思決定	
プリミティブな⾏動	:		a
⽅策	:	π(a;s)
階層型強化学習とは
通常は・・・
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
12
細かな意思決定	
プリミティブな⾏動	:		a
⼤まかな意思決定	
⽬的指向	:		g
下位⽅策	:	π(a;s,g) 上位⽅策	:	πgoal(g;s)
下位層⽅策
を選択	
(g	として)
×	複数種
試⾏錯誤か
ら上位層⽅
策を⽣成?
階層型強化学習とは
→	意思決定を⽬的思考に分解・構造化
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
階層型強化学習とは
低次⾏動(下位⽅策・通常	RL	が制御)	
- プリミティブな⾏動の分布	
- ゲームだったらコントローラのボタン	
- 多関節ロボットだったら各関節のトルクなど	
⾼次⾏動(スキル・オプション,上位⽅策が制御)⽬的論
的な⾏動,⾏動系列の抽象化	
- 「鍵を取りに⾏く」「⿂を取る」	
- 「⾛る」「⾼いところに移動する」	
低次⾏動での	RL	は⻑⼤な条件付けのような学習	
⼈間的には低次⾏動	→	⾼次⾏動に以降するのが⾃然
状態:ランプ点灯 ⾏動:ボタン押下 報酬:エサ獲得
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
階層型強化学習とは
低次⾏動(下位⽅策・通常	RL	が制御)	
- プリミティブな⾏動の分布	
- ゲームだったらコントローラのボタン	
- 多関節ロボットだったら各関節のトルクなど	
⾼次⾏動(スキル・オプション,上位⽅策が制御)	
- ⽬的論的な⾏動,⾏動系列の抽象化	
- 「鍵を取りに⾏く」「⿂を取る」	
- 「⾛る」「⾼いところに移動する」	
低次⾏動での	RL	は⻑⼤な条件付けのような学習	
⼈間的には低次⾏動	→	⾼次⾏動に以降するのが⾃然
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
階層型強化学習の効能
探索の効率化	
- 関節の微⼩な調整ではなく,⾏動系列	A/B	の試⾏錯誤ができる	
- 意味のある状態への到達可能性の向上	
タスク間の汎化・⽣涯学習	
- 学習結果の部分的な転移による新課題での学習の効率化	
POMDP	への対抗	
- MDP	への場当たり的な対処	(Over	step	な概念であるため)	
より⾼次な⾏動の獲得に寄与	
- ⾼次⾏動のさらなる組み合わせが可能に	
→	強化学習の主要な課題に効果がある可能性が⾼い
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
16
階層型強化学習の懸念
学習形式が複雑になる	
- ⾼次・低次を別々のフェイズで学習	
- (単⼀タスクのみの学習では)	普通の	RL	より時間がかかる	
サブゴール・サブタスク分割(Option	獲得)	
- 中間⽬標を⾃律的に判断するのは困難	
TD学習,⽅策勾配のような安定したフレームワークの不在	
- 深層学習上で基本となりそうなのは	2	種類存在(後述)	
タスク間の転移ルールが確⽴されていない	
- 追加学習の問題なども存在	
→	通常の強化学習以上に萌芽的な分野
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
17
そもそもどんな表現形式で学習する?
深層階層型強化学習の基本的な学習フレーム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
Option-Critic	アーキテクチャ	(2016)	〜	Option	由来	
vs	
FeUdal	network	(2017)	〜	FRL	由来	
どちらも古典的概念に深層学習技術を導⼊したアーキテクチャ	
(計算リソースとテクニックと運はかなり必要?)
深層階層型強化学習の基本的な学習フレーム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
←	上位⽅策	
←	Option	終了条件	
←	下位⽅策	(Option)
固有数の下位⽅策	(Option)	を	
スイッチして⾏動選択	
基本構造は	Actor-Critic	由来	
重要なのは	
Option	の終了条件分布の学習	
※	終了=打ち切り分布
Option-Critic	architecture
Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
20
上位⽅策から下位⽅策を全て微分可能なネットワークで学習	
状態の特徴空間上の	”相対的なゴール	(⽅向)”	概念を導⼊	
A3C	+	LSTM	由来
FeUdal	Networks	(DeepMind	産)
※
※
上位層⽅策	(相対的ゴール分布):
下位層⽅策:
Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
サブゴール定義 Option	数
Option-Critic 状態に対する	
確率分布
固定
FeUdal	network 時間依存	
最⻑時間が固定
⾃由
深層階層型強化学習の学習フレーム⽐較
→	⼀⻑⼀短なのでどちらが良いかは決着がついてない	
(どちらかというと	Option-Critic	寄り?)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
22
ハンドメイドな階層型強化学習		
 -	h-DQN	(Joshua	B.	Tenenbaum)

 -	SNN	for	HRL	(Pieter	Abbeel)	
下位⽅策の異なる表現形式		
 -	STRAW	(Macro	Action)	等
深層階層型強化学習のその他形式
→	他にも⾊々あるし今後も出てくる可能性	
(割と	Option-Critic	強めではある)
Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and
Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016.
Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on
Learning Representations (ICLR 2017), 2017.
Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions.
ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
23
Option	打ち切り分布学習の理論拡張	(Peng	Q(λ)	のある種の近似)	
 -	Learning	with	options	that	terminate	off-policy	
下位⽅策の学習に利⽤可能な後知恵強化学習	(UFVA	由来)	
 -	Hindsight	Experience	Replay	
 -	Hindsight	Policy	Gradients	
 -	(類似)	Importance	Sampled	Option-Critic	for	More	Sample	  	
     Efficient	Reinforcement	Learning	
汎化に対する解釈性の付与	
 -	Successor	Features	for	Transfer	in	Reinforcement	Learning	
 -	Hierarchical	and	Interpretable	Skill	Acquisition		
 		in	Multi-task	Reinforcement	Learning
HRL	論⽂紹介
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
24
サブゴール	=	Option	の打ち切り分布を如何に学習するか	
Option-Critic	だと学習される階層構造が⼆極化する危険
Option	打ち切り分布学習の理論拡張
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
Option-Critic	の学習の⼆極化	(理想)
×	複数種
細かな意思決定	
プリミティブな⾏動	:		a
⼤まかな意思決定	
⽬的指向	:		g
下位⽅策	:	π(a;s,g) 上位⽅策	:	πgoal(g;s)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
×	⼀種
Option-Critic	の学習の⼆極化	(スキル未分化)
↑	⼀種の下位⽅策で全てが賄える	(スキル未分化)
細かな意思決定	
プリミティブな⾏動	:		a
⼤まかな意思決定	
⽬的指向	:		g
下位⽅策	:	π(a;s,g) 上位⽅策	:	πgoal(g;s)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
×	複数種
Option-Critic	の学習の⼆極化	(スキル過細分化)
サブゴールが	1	step	ごとに発⽣	(スキル過細分化)	↑
細かな意思決定	
プリミティブな⾏動	:		a
⼤まかな意思決定	
⽬的指向	:		g
下位⽅策	:	π(a;s,g) 上位⽅策	:	πgoal(g;s)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
28
Option-Critic	の学習の⼆極化
スキル未分化・過細分化は本質的には同様	
スキル	(Option)	の終了・打ち切り分布=サブゴール	
が,うまく学習できていないため発⽣	
→	ゴールの遠さへの対処	=	時間概念に起因	
発想	
→	打ち切り分布から時間成分を分離
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
Learning	with	options	that	terminate	off-policy
peng	Q(λ)	との対応から	β	の成分をパラメータを分離	
実際の終了分布	ζ	という概念の導⼊
Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement
Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
継続確率:	
TD	誤差:	
収益予測:	
収益更新:
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
Learning	with	options	that	terminate	off-policy
打ち切り時期に関して	Sampling	分布	ζ	と	Target	分布	β	が別		
通常の	Option-Critic	は	ζ	=	β
Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement
Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
← Target 分布使用
↑ Sampling 分布使用
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
Learning	with	options	that	terminate	off-policy
(1)	ζ	⼩	(Option	の	Sampling:	⻑)	→	学習速度が向上	
(2)	β	⼤	(Option	の	Target:	短,	Off-policy)	→	制御性能が向上	
(3)	Q(β)	は	off-policy	打ち切りに収束	
短期	Option	の獲得と⻑期的収益で安定性を両⽴させる⽰唆
Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement
Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
32
Learning	with	options	that	terminate	off-policy
今後:	
短期	Option	→	⻑期	Option	への拡張は可能	(転移には⼤事)	
(階層型ゆえ)	効率は良くないが	
途中式から重点サンプリングで効率化可能である⽰唆
Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement
Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
33
下位⽅策の学習に利⽤可能な後知恵強化学習
上位層⽅策と下位層⽅策	(複数)	を両⽅が学習するから	
学習が⾮常に困難	&	時間がかかる	
→	同時に複数の下位⽅策を学習して効率化
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
通常	RL	の拡張アルゴリズム	
Universal	Value	Function	Approximators	(UVFA)	
→	下位層⽅策と表現形式がほぼ同様	
後知恵	(ある種の記憶改竄)	による効率改善	
→	HER,	HPG
最初からゴール状態を定義して学習	↓
下位⽅策の学習に利⽤可能な後知恵強化学習
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
35
あらかじめゴールを決めて学習を開始	
実際の結果系列から	”訪問状態がゴールだった”	を書き換えて	
経験再⽣して学習	(スパース報酬のための⼿法)
Hindsight	Experience	Replay
←	後知恵		
 (⽬的の記憶の改竄)
Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience
Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
36
ゴール状態間の類似度から暗黙的なカリキュラム学習	
スパースな報酬をカウントベース(楽観的信頼度評価)無しで学習
Hindsight	Experience	Replay
Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience
Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
37
異なるゴールに向かって⽣成された軌跡を	
⽅策分布の学習に利⽤	(近似版も提案)
Hindsight	Policy	Gradients
↓
Importance sampling
Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural
Information Processing Systems (HRL@NIPS 2017), 2017.
いつもの⽅策勾配:
後知恵⽅策勾配:
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
もっとも簡便だが正確性に⽋ける近似⼿法	AHPG	が⾼成績		
HRL	的には同時に様々な下位⽅策が学習できる利点
Hindsight	Policy	Gradients
Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural
Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
39
ゴール状態間の類似度から暗黙的なカリキュラム学習	
→	関数近似の恩恵	
ゴールの定義が明確でなくとも学習が進む	
→	階層型強化学習との相性:良(はず)	
(現状の	Option-Critic	にそのままは使えない)
HER	と	HPG	の共通点
最初からゴール状態を定義して学習	↓
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
40
通常の	Actor-Critic	と同等の学習効率を実現
Importance	Sampled	Option-Critic	for		
More	Sample	Efficient	Reinforcement	Learning
IS	を	Option-Critic	に応⽤	
他の	option	の軌跡の情報を使って別の	Option	を更新	
Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural
Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
41
	学習内容を汎化しやすい環境認識	
あるいは	
汎化しやすいスキル学習	
課題の汎化を容易に
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
42
Successor	Features	for	Transfer		
in	Reinforcement	Learning
固定された報酬成分	↓
タスク定義	↑
報酬成分	=	収益成分=分解された特徴量	Φ	
MDP	を報酬予測から	Φ	の重み	w	を推定する逆問題化	
→	新しい	MDP	を再度の強化学習なしでも対処可能に
無更新	Bound:	
Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
43
Successor	Features	for	Transfer		
in	Reinforcement	Learning
Start,	Goal,	通過点	Object	が
変わっても再学習が容易に
Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
44
スキルの	”意味”	の学習	
再利⽤可能性の向上	
解釈可能な	Option
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
45
Hierarchical	and	Interpretable	Skill	Acquisition		
in	Multi-task	Reinforcement	Learning
Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on
Neural Information Processing Systems (HRL@NIPS 2017), 2017.
⼈間の指⽰	(grammar)	を付加して⽅策の階層を段階的に学習	
Stochastic	Temporal	Grammar	=	STG	:	⽅策間の遷移確率
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
Hierarchical	and	Interpretable	Skill	Acquisition		
in	Multi-task	Reinforcement	Learning
Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on
Neural Information Processing Systems (HRL@NIPS 2017), 2017.
Flat	policy	:	プリミティブな⾏動選択	(初期	&	予備)	
Base	policy	:	上位の	policy	(番号が⾼いほど上位)	
Instruction	policy	:	⼀つ下位の	Base	policy	を⽣成	
Switch	policy	:	Flat	policy	と	Base	policy	の切り替え
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
47
Hierarchical	and	Interpretable	Skill	Acquisition		
in	Multi-task	Reinforcement	Learning
Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on
Neural Information Processing Systems (HRL@NIPS 2017), 2017.
STG	:	Switch	と	Instruction	の学習に使⽤される⽅策遷移の確⽴分布	
学習法:	
 Grammar	に紐づくタスク集合からサンプリング	
 上位から下位のタスクを反復的に学習する	(=タスクが所与である必要)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
48
Hierarchical	and	Interpretable	Skill	Acquisition		
in	Multi-task	Reinforcement	Learning
提案されているアイディアを全て組み合わせた⽅が学習が効率的	
タスクが所与なのは気になるが階層の解釈はしやすい	
⽅策間の遷移確率(e.g.	STG)は今後重要になってくる
Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on
Neural Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
49
FeUdal	network	
 -	今回はまだ	FeUdal	Network	の派⽣はない	
  →	学習の安定性が問題?	
Option-Critic	
 -	Option-Critic	(打ち切り分布付き)	:	解釈や転移は容易?	
  →	Off-policy	Terminate	は⼀つの⽰唆	
  →	さらなる発展に期待	
決着はまだ先	
他の形式が基本フレームになる可能性もありえる
Option-Critic	vs	FeUdal	network	(振り返り)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
50
階層型強化学習	=	⼈間的な⾏動学習には必要な要素	
まだまだ萌芽的な研究領域	
強化学習	+	深層学習	=	階層型への恩恵	
数年前の	Deep	RL	のように	WS	から	
メインセッションに急成⻑していく可能性
雑感
引⽤⽂献	
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
51
[1] Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.
[2] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for
Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.
[3] Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating
Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems
(NIPS 2016), 2016.
[4] Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of
the International Conference on Learning Representations (ICLR 2017), 2017.
[5] Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for
Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.
[6] Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings
of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems
(HRL@NIPS 2017), 2017.
[7] Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W.
Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017),
2017.
[8] Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the
31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
[9] Goel, K., Brunskill, E. Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning. Proceedings
of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems
(HRL@NIPS 2017), 2017.
[10] Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in
Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
[11] Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
52
⾮	HRL	の	RL	論⽂もいくつか紹介	
オマケ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
53
モデルフリー+モデルベース	(ALphaZero	の進化系になりうる)	
 -	Imagination-Augmented	Agents	(I2A)	
記憶の抽象化	
 -	Enhanced	Experience	Replay	Generation		
楽観的探索の⼯夫	
 -	EX2	
 -	#Exploration	
価値関数の性質に由来する近似性能の向上	
 -	Natural	Value	Approximator	(NVA)
通常	RL	論⽂紹介
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
54
Rollout	するためには環境モデルが必要	(e.g.	AlphaGo)	
環境モデルを状態遷移のモデルから学習	
しかし	RL	精度×環境モデル学習で直列的に悪化
モデルフリー	+	モデルベース
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
55
Imagination-Augmented	Agents		
for	Deep	Reinforcement	Learning
擬似	rollout	で	AlphaGo	のようなことをする	
環境モデルを形成して推定するが,誤差が⼤きい	
モデルベースが出⼒した数値も	NN	で解釈する	
環境は動的にも学べるが負荷が⼤きいので事前に学習
Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P.,
Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural
Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
56
Imagination-Augmented	Agents		
for	Deep	Reinforcement	Learning
擬似	rollout	で	AlphaGo	のようなことをする	
環境モデルを形成して推定するが,誤差が⼤きい	
モデルベースが出⼒した数値も	NN	で解釈する	
環境は動的にも学べるが負荷が⼤きいので事前に学習
Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P.,
Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural
Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
57
環境の状態遷移サンプルは無限にある⽅が良い	
記憶容量には限界が	
→	記憶の抽象化
記憶の抽象化
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
58
Experience	Replay	を	EGAN	で変換	
記憶の抽象化	(⽣成モデル化で)	で無限の記憶領域を獲得	
※	Open	AI	Lab,	カートポール
Enhanced	Experience	Replay	Generation		
for	Efficient	Reinforcement	Learning
Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved
from https://arxiv.org/abs/1705.08245 , 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
59
ランダムな探索だと効率が悪い	
関数近似による未知領域の過⼩評価を解決したい	
→	状態への訪問カウントで信頼度を評価	(楽観さ)	
信頼度(訪問カウント)の評価は抽象化に向かない	
→	⼯夫が⾊々なされている
楽観的探索の⼯夫
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
60
経験に対する⽣成モデルを作り	
鑑定⼠に訪問状態の新しさを推定させて擬似報酬を与える
EX2	:	Exploration	with	Exemplar	Models		
for	Deep	Reinforcement	Learning
Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved
from https://arxiv.org/abs/1705.08245 , 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
61
#Exploration:	A	Study	of	Count-Based	Exploration		
for	Deep	Reinforcement	Learning
AE	で状態をハッシュ化したテーブルに対して	
到達回数をカウントして擬似カウントベース探索	
複雑なモデル	(VIME)	でなくても良い効果が発⽣	
※	Variational	Information	Maximizing	Exploration	(VIME)
Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration
for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
62
#Exploration:	A	Study	of	Count-Based	Exploration		
for	Deep	Reinforcement	Learning
AE	で状態をハッシュ化したテーブルに対して	
到達回数をカウントして擬似カウントベース探索	
複雑なモデル	(VIME)	でなくても良い効果が発⽣	
※	Variational	Information	Maximizing	Exploration	(VIME)
Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration
for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
63
類似状態に対して極端な変化が起こるのが状態価値関数	
関数近似すると近似能⼒への負荷が⾼い
価値関数の性質に由来する近似性能の向上
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
64
類似状態に対して極端な変化が起こるのが状態価値関数	
関数近似すると近似能⼒への負荷が⾼い
Natural	Value	Approximators:		
Learning	when	to	Trust	Past	Estimates
Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of
the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
65
Natural	Value	Approximators:		
Learning	when	to	Trust	Past	Estimates
⾃然価値:
損失関数:
更新式の逆算から⾃然価値を表現	
⾃然価値推定と通常価値推定との重み付け変数	β	を学習	
ある種の	Semi-MDP	にも使える
Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of
the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
66
更新式の逆算から⾃然価値を表現	
⾃然価値推定と通常価値推定との重み付け変数	β	を学習	
ある種の	Semi-MDP	にも使える
Natural	Value	Approximators:		
Learning	when	to	Trust	Past	Estimates
Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of
the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
67
ご静聴ありがとうございました
引⽤⽂献	
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
68
[9] Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y.,
Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement
Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
[10] Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement
Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
[11] Fu, J., Co-Reyes, J., Levine, S. EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning. Proceedings of
the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
[12] Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A
Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information
Processing Systems (NIPS 2017), 2017.
[13] Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust
Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

Contenu connexe

Tendances

Tendances (20)

[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 

Similaire à NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α

ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
hayashiresearchlab
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
 

Similaire à NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α (19)

強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
Introduction of the_paper
Introduction of the_paperIntroduction of the_paper
Introduction of the_paper
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningDiscriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 

NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム & デザイン本部 AI システム部 AI 研究開発グループ 甲野 佑 NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α @ NIPS2017
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 HRL@NIPS 2017 階層型強化学習 (HRL) ワークショップがついに開催 WS of HRL と本会議の関連論⽂をいくつか紹介 趣旨
  • 4. ⽬次 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 1. 強化学習 (RL) とは? 2. 階層型強化学習 (HRL) とは? 3. HRL の効能と懸念 4. HRL の基本的な学習フレーム 5. HRL 関係の論⽂紹介 (本題) オマケ. いくつか通常 RL の論⽂紹介 (時間があれば)
  • 5. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント
  • 6. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 を最⼤化させる を獲得するのが⽬的 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 7. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 が⼤きく変わるのが厄介 を更新・変化すると 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 8. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 (基本的には) 課題が MDP であることと,あらゆる状態への訪問が前提 → かなり厳しい制約 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント
  • 9. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 深層学習との融合 (e.g. DQN) で価値関数の関数近似が可能 最近の発展は概ね関数近似課題として学習の効率化を重視  - 状態遷移サンプルを使いまわせるように  - ターゲットの安定性   - 複数ステップの報酬   - 場当たり的な POMDP 対応 画⾯認識 (CNN) ⾏動価値評価 (強化学習) ゲーム画⾯ (環境) ⾏動
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 関数近似課題として強化学習を解く過程で - LSTM による時系列の圧縮 = POMDP 対処 - Off-policy, On-policy の関係 → 統合 TD(λ) の理論発 展 - 複雑な強化学習の研究の進展 - モデルベースとの融合 - 階層型強化学習 - 暗黙的にサブゴールが学習可能に? → より⼈間的な⾼度な強化学習の⻑年の課題に光が 強化学習とは
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 細かな意思決定 プリミティブな⾏動 : a ⽅策 : π(a;s) 階層型強化学習とは 通常は・・・
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s) 下位層⽅策 を選択 (g として) × 複数種 試⾏錯誤か ら上位層⽅ 策を⽣成? 階層型強化学習とは → 意思決定を⽬的思考に分解・構造化
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 階層型強化学習とは 低次⾏動(下位⽅策・通常 RL が制御) - プリミティブな⾏動の分布 - ゲームだったらコントローラのボタン - 多関節ロボットだったら各関節のトルクなど ⾼次⾏動(スキル・オプション,上位⽅策が制御)⽬的論 的な⾏動,⾏動系列の抽象化 - 「鍵を取りに⾏く」「⿂を取る」 - 「⾛る」「⾼いところに移動する」 低次⾏動での RL は⻑⼤な条件付けのような学習 ⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然 状態:ランプ点灯 ⾏動:ボタン押下 報酬:エサ獲得
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 階層型強化学習とは 低次⾏動(下位⽅策・通常 RL が制御) - プリミティブな⾏動の分布 - ゲームだったらコントローラのボタン - 多関節ロボットだったら各関節のトルクなど ⾼次⾏動(スキル・オプション,上位⽅策が制御) - ⽬的論的な⾏動,⾏動系列の抽象化 - 「鍵を取りに⾏く」「⿂を取る」 - 「⾛る」「⾼いところに移動する」 低次⾏動での RL は⻑⼤な条件付けのような学習 ⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 階層型強化学習の効能 探索の効率化 - 関節の微⼩な調整ではなく,⾏動系列 A/B の試⾏錯誤ができる - 意味のある状態への到達可能性の向上 タスク間の汎化・⽣涯学習 - 学習結果の部分的な転移による新課題での学習の効率化 POMDP への対抗 - MDP への場当たり的な対処 (Over step な概念であるため) より⾼次な⾏動の獲得に寄与 - ⾼次⾏動のさらなる組み合わせが可能に → 強化学習の主要な課題に効果がある可能性が⾼い
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 階層型強化学習の懸念 学習形式が複雑になる - ⾼次・低次を別々のフェイズで学習 - (単⼀タスクのみの学習では) 普通の RL より時間がかかる サブゴール・サブタスク分割(Option 獲得) - 中間⽬標を⾃律的に判断するのは困難 TD学習,⽅策勾配のような安定したフレームワークの不在 - 深層学習上で基本となりそうなのは 2 種類存在(後述) タスク間の転移ルールが確⽴されていない - 追加学習の問題なども存在 → 通常の強化学習以上に萌芽的な分野
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 17 そもそもどんな表現形式で学習する? 深層階層型強化学習の基本的な学習フレーム
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 Option-Critic アーキテクチャ (2016) 〜 Option 由来 vs FeUdal network (2017) 〜 FRL 由来 どちらも古典的概念に深層学習技術を導⼊したアーキテクチャ (計算リソースとテクニックと運はかなり必要?) 深層階層型強化学習の基本的な学習フレーム
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 ← 上位⽅策 ← Option 終了条件 ← 下位⽅策 (Option) 固有数の下位⽅策 (Option) を スイッチして⾏動選択 基本構造は Actor-Critic 由来 重要なのは Option の終了条件分布の学習 ※ 終了=打ち切り分布 Option-Critic architecture Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 20 上位⽅策から下位⽅策を全て微分可能なネットワークで学習 状態の特徴空間上の ”相対的なゴール (⽅向)” 概念を導⼊ A3C + LSTM 由来 FeUdal Networks (DeepMind 産) ※ ※ 上位層⽅策 (相対的ゴール分布): 下位層⽅策: Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 サブゴール定義 Option 数 Option-Critic 状態に対する 確率分布 固定 FeUdal network 時間依存 最⻑時間が固定 ⾃由 深層階層型強化学習の学習フレーム⽐較 → ⼀⻑⼀短なのでどちらが良いかは決着がついてない (どちらかというと Option-Critic 寄り?)
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 22 ハンドメイドな階層型強化学習  - h-DQN (Joshua B. Tenenbaum)
  - SNN for HRL (Pieter Abbeel) 下位⽅策の異なる表現形式  - STRAW (Macro Action) 等 深層階層型強化学習のその他形式 → 他にも⾊々あるし今後も出てくる可能性 (割と Option-Critic 強めではある) Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016. Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on Learning Representations (ICLR 2017), 2017. Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 23 Option 打ち切り分布学習の理論拡張 (Peng Q(λ) のある種の近似)  - Learning with options that terminate off-policy 下位⽅策の学習に利⽤可能な後知恵強化学習 (UFVA 由来)  - Hindsight Experience Replay  - Hindsight Policy Gradients  - (類似) Importance Sampled Option-Critic for More Sample         Efficient Reinforcement Learning 汎化に対する解釈性の付与  - Successor Features for Transfer in Reinforcement Learning  - Hierarchical and Interpretable Skill Acquisition   in Multi-task Reinforcement Learning HRL 論⽂紹介
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 24 サブゴール = Option の打ち切り分布を如何に学習するか Option-Critic だと学習される階層構造が⼆極化する危険 Option 打ち切り分布学習の理論拡張
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 Option-Critic の学習の⼆極化 (理想) × 複数種 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 × ⼀種 Option-Critic の学習の⼆極化 (スキル未分化) ↑ ⼀種の下位⽅策で全てが賄える (スキル未分化) 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 × 複数種 Option-Critic の学習の⼆極化 (スキル過細分化) サブゴールが 1 step ごとに発⽣ (スキル過細分化) ↑ 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 Option-Critic の学習の⼆極化 スキル未分化・過細分化は本質的には同様 スキル (Option) の終了・打ち切り分布=サブゴール が,うまく学習できていないため発⽣ → ゴールの遠さへの対処 = 時間概念に起因 発想 → 打ち切り分布から時間成分を分離
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 Learning with options that terminate off-policy peng Q(λ) との対応から β の成分をパラメータを分離 実際の終了分布 ζ という概念の導⼊ Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. 継続確率: TD 誤差: 収益予測: 収益更新:
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 Learning with options that terminate off-policy 打ち切り時期に関して Sampling 分布 ζ と Target 分布 β が別 通常の Option-Critic は ζ = β Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. ← Target 分布使用 ↑ Sampling 分布使用
  • 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 31 Learning with options that terminate off-policy (1) ζ ⼩ (Option の Sampling: ⻑) → 学習速度が向上 (2) β ⼤ (Option の Target: 短, Off-policy) → 制御性能が向上 (3) Q(β) は off-policy 打ち切りに収束 短期 Option の獲得と⻑期的収益で安定性を両⽴させる⽰唆 Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 Learning with options that terminate off-policy 今後: 短期 Option → ⻑期 Option への拡張は可能 (転移には⼤事) (階層型ゆえ) 効率は良くないが 途中式から重点サンプリングで効率化可能である⽰唆 Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 下位⽅策の学習に利⽤可能な後知恵強化学習 上位層⽅策と下位層⽅策 (複数) を両⽅が学習するから 学習が⾮常に困難 & 時間がかかる → 同時に複数の下位⽅策を学習して効率化
  • 34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 通常 RL の拡張アルゴリズム Universal Value Function Approximators (UVFA) → 下位層⽅策と表現形式がほぼ同様 後知恵 (ある種の記憶改竄) による効率改善 → HER, HPG 最初からゴール状態を定義して学習 ↓ 下位⽅策の学習に利⽤可能な後知恵強化学習
  • 35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 あらかじめゴールを決めて学習を開始 実際の結果系列から ”訪問状態がゴールだった” を書き換えて 経験再⽣して学習 (スパース報酬のための⼿法) Hindsight Experience Replay ← 後知恵  (⽬的の記憶の改竄) Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 36. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 ゴール状態間の類似度から暗黙的なカリキュラム学習 スパースな報酬をカウントベース(楽観的信頼度評価)無しで学習 Hindsight Experience Replay Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 37. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 異なるゴールに向かって⽣成された軌跡を ⽅策分布の学習に利⽤ (近似版も提案) Hindsight Policy Gradients ↓ Importance sampling Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. いつもの⽅策勾配: 後知恵⽅策勾配:
  • 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 もっとも簡便だが正確性に⽋ける近似⼿法 AHPG が⾼成績 HRL 的には同時に様々な下位⽅策が学習できる利点 Hindsight Policy Gradients Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 39. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 ゴール状態間の類似度から暗黙的なカリキュラム学習 → 関数近似の恩恵 ゴールの定義が明確でなくとも学習が進む → 階層型強化学習との相性:良(はず) (現状の Option-Critic にそのままは使えない) HER と HPG の共通点 最初からゴール状態を定義して学習 ↓
  • 40. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 通常の Actor-Critic と同等の学習効率を実現 Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning IS を Option-Critic に応⽤ 他の option の軌跡の情報を使って別の Option を更新 Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 学習内容を汎化しやすい環境認識 あるいは 汎化しやすいスキル学習 課題の汎化を容易に
  • 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 Successor Features for Transfer in Reinforcement Learning 固定された報酬成分 ↓ タスク定義 ↑ 報酬成分 = 収益成分=分解された特徴量 Φ MDP を報酬予測から Φ の重み w を推定する逆問題化 → 新しい MDP を再度の強化学習なしでも対処可能に 無更新 Bound: Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 43. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43 Successor Features for Transfer in Reinforcement Learning Start, Goal, 通過点 Object が 変わっても再学習が容易に Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 44. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 44 スキルの ”意味” の学習 再利⽤可能性の向上 解釈可能な Option
  • 45. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 45 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. ⼈間の指⽰ (grammar) を付加して⽅策の階層を段階的に学習 Stochastic Temporal Grammar = STG : ⽅策間の遷移確率
  • 46. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. Flat policy : プリミティブな⾏動選択 (初期 & 予備) Base policy : 上位の policy (番号が⾼いほど上位) Instruction policy : ⼀つ下位の Base policy を⽣成 Switch policy : Flat policy と Base policy の切り替え
  • 47. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 47 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. STG : Switch と Instruction の学習に使⽤される⽅策遷移の確⽴分布 学習法:  Grammar に紐づくタスク集合からサンプリング  上位から下位のタスクを反復的に学習する (=タスクが所与である必要)
  • 48. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 48 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning 提案されているアイディアを全て組み合わせた⽅が学習が効率的 タスクが所与なのは気になるが階層の解釈はしやすい ⽅策間の遷移確率(e.g. STG)は今後重要になってくる Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 49. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 49 FeUdal network  - 今回はまだ FeUdal Network の派⽣はない   → 学習の安定性が問題? Option-Critic  - Option-Critic (打ち切り分布付き) : 解釈や転移は容易?   → Off-policy Terminate は⼀つの⽰唆   → さらなる発展に期待 決着はまだ先 他の形式が基本フレームになる可能性もありえる Option-Critic vs FeUdal network (振り返り)
  • 50. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 50 階層型強化学習 = ⼈間的な⾏動学習には必要な要素 まだまだ萌芽的な研究領域 強化学習 + 深層学習 = 階層型への恩恵 数年前の Deep RL のように WS から メインセッションに急成⻑していく可能性 雑感
  • 51. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 51 [1] Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017. [2] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017. [3] Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016. [4] Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on Learning Representations (ICLR 2017), 2017. [5] Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016. [6] Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [7] Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [8] Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [9] Goel, K., Brunskill, E. Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [10] Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [11] Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  • 52. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 52 ⾮ HRL の RL 論⽂もいくつか紹介 オマケ
  • 53. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 53 モデルフリー+モデルベース (ALphaZero の進化系になりうる)  - Imagination-Augmented Agents (I2A) 記憶の抽象化  - Enhanced Experience Replay Generation 楽観的探索の⼯夫  - EX2  - #Exploration 価値関数の性質に由来する近似性能の向上  - Natural Value Approximator (NVA) 通常 RL 論⽂紹介
  • 54. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 54 Rollout するためには環境モデルが必要 (e.g. AlphaGo) 環境モデルを状態遷移のモデルから学習 しかし RL 精度×環境モデル学習で直列的に悪化 モデルフリー + モデルベース
  • 55. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 55 Imagination-Augmented Agents for Deep Reinforcement Learning 擬似 rollout で AlphaGo のようなことをする 環境モデルを形成して推定するが,誤差が⼤きい モデルベースが出⼒した数値も NN で解釈する 環境は動的にも学べるが負荷が⼤きいので事前に学習 Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 56. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 56 Imagination-Augmented Agents for Deep Reinforcement Learning 擬似 rollout で AlphaGo のようなことをする 環境モデルを形成して推定するが,誤差が⼤きい モデルベースが出⼒した数値も NN で解釈する 環境は動的にも学べるが負荷が⼤きいので事前に学習 Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 57. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 57 環境の状態遷移サンプルは無限にある⽅が良い 記憶容量には限界が → 記憶の抽象化 記憶の抽象化
  • 58. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 58 Experience Replay を EGAN で変換 記憶の抽象化 (⽣成モデル化で) で無限の記憶領域を獲得 ※ Open AI Lab, カートポール Enhanced Experience Replay Generation for Efficient Reinforcement Learning Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
  • 59. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 59 ランダムな探索だと効率が悪い 関数近似による未知領域の過⼩評価を解決したい → 状態への訪問カウントで信頼度を評価 (楽観さ) 信頼度(訪問カウント)の評価は抽象化に向かない → ⼯夫が⾊々なされている 楽観的探索の⼯夫
  • 60. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 60 経験に対する⽣成モデルを作り 鑑定⼠に訪問状態の新しさを推定させて擬似報酬を与える EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
  • 61. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 61 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning AE で状態をハッシュ化したテーブルに対して 到達回数をカウントして擬似カウントベース探索 複雑なモデル (VIME) でなくても良い効果が発⽣ ※ Variational Information Maximizing Exploration (VIME) Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 62. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 62 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning AE で状態をハッシュ化したテーブルに対して 到達回数をカウントして擬似カウントベース探索 複雑なモデル (VIME) でなくても良い効果が発⽣ ※ Variational Information Maximizing Exploration (VIME) Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 63. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 63 類似状態に対して極端な変化が起こるのが状態価値関数 関数近似すると近似能⼒への負荷が⾼い 価値関数の性質に由来する近似性能の向上
  • 64. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 64 類似状態に対して極端な変化が起こるのが状態価値関数 関数近似すると近似能⼒への負荷が⾼い Natural Value Approximators: Learning when to Trust Past Estimates Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 65. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 65 Natural Value Approximators: Learning when to Trust Past Estimates ⾃然価値: 損失関数: 更新式の逆算から⾃然価値を表現 ⾃然価値推定と通常価値推定との重み付け変数 β を学習 ある種の Semi-MDP にも使える Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 66. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 66 更新式の逆算から⾃然価値を表現 ⾃然価値推定と通常価値推定との重み付け変数 β を学習 ある種の Semi-MDP にも使える Natural Value Approximators: Learning when to Trust Past Estimates Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  • 67. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 67 ご静聴ありがとうございました
  • 68. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 68 [9] Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [10] Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017. [11] Fu, J., Co-Reyes, J., Levine, S. EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [12] Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [13] Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.