論文紹介 No-Reward Meta Learning (RL architecture勉強会)

論文紹介
NoRML: No-Reward Meta Learning
D1 中田勇介
2019/05/21 強化学習アーキテクチャ勉強会

002 /
実環境で実行可能な方策を学習するためのMeta-Learning手法を提案
・シミュレータで学習 -> 実環境で方策を適応
・特徴：実環境への適応時に報酬不要
・MAML, Domain Randomizationと比較して優れた性能
・著者：Yuxiang Yang, Ken Caluwaerts, Atil Iscen, Jie Tan, Chelsea Finn
・実装：https://github.com/google-research/google-research/tree/master/norml
どんな論文？

003 /
1. Introduction
2. Preliminaries
3. NO-REWARD META LEARNING （提案法）
4. Experiments
5. Related Work
6. まとめ
Outline

004 /
・（モデルフリー）強化学習には多くの試行錯誤が必要
・実環境では試行錯誤するのは困難
・シミュレータで実環境のダイナミクスを再現するのは困難
・シミュレータで学習させた方策を実環境に適応
Introduction

005 /
想定している状況
[Tan+, 2018]

006 /
Notation
状態集合
行動集合
状態遷移確率
報酬関数
軌跡
方策
Preliminaries

007 /
Model-free Reinforcement Learning
・Loss function
Preliminaries

008 /
Model-free Reinforcement Learning
・Loss function
・Policy Gradient
・Advantage function
Preliminaries

009 /
学習タスク〜を用いてテストタスク〜に適応可能な
パラメータを学習する方法
仮定：タスク間には共通の構造（使いまわせる知識）が存在する．
Meta Learningとは

0010 /
学習タスク〜を用いてテストタスク〜に適応可能な
パラメータを学習する方法
仮定：タスク間には共通の構造（使いまわせる知識）が存在する．
・NoRMLにおける仮定
タスク間で共通：，，
タスク間で異なる：
Meta Learningとは

0011 /
Model-Agnostic Meta Learning (MAML)

0012 /
Model-Agnostic Meta Learning (MAML)

0013 /
MAML on Model-free RL
Policy Gradient

0014 /
・Policy Gradient
・Update Rule
MAML on Model-free RL

0018 /
・Learned Advantage Function
・Offset
NO-REWARD META LEARNING （提案法）

0019 /
・Offset

0020 /
・Offset
全タスクで共通

0021 /

0022 /

0023 /

0024 /
比較対象
・MAML
・Domain Randomization
Experiments

0026 /
実験環境
・Point Agent with Rotation Bias
・Cartpole with Sensor Bias
・Half Cheetah with Swapped Actions
Experiments

0027 /
Point Agent with Rotation Bias
(-2, 2) (2, 2)
(2, -2)(-2, -2)
x
Goal (1, 0)
action
Rotation bias
Next state
State(0, 0)

0028 /

0029 /

0030 /

0031 /
Cartpole with Sensor Bias

0032 /
Cartpole with Sensor Bias

0033 /
Half Cheetah with Swapped Actions

0034 /

0035 /
https://sites.google.com/view/noreward-meta-rl/

0036 /
Meta reinforcement learningの分類
- Recurrent based: RL2, Attentive meta learner, etc.
- エピソードを記憶させることで環境の違いを認識
- Gradient-based: NoRML(this work), MAML, etc.
- 勾配法でパラメータを更新し環境に適応
- Hybrid-based: Evolved Policy Gradient, Meta-critic network, etc
- 上の二つのハイブリッド
Related Work

0037 /
ダイナミクスの変化に対する他のアプローチ
- Adaptive inverse control
- Self-modeling
- Bayesian optimization
- Online system identification
Related Work

0038 /
実環境で実行可能な方策を学習するNoRMLを提案
提案内容：Learned Advantage Function, Offset
・シミュレータで学習 -> 実環境で方策を適応
・実環境への適応時に報酬不要
・MAML, Domain Randomizationと比較して優れた性能
まとめ

0039 /
おまけ：AAMAS2019参加報告
http://www.kamishima.net/archive/MLDMAImap.pdf

0040 /

0041 /

0042 /

0043 /

0044 /

論文紹介 No-Reward Meta Learning (RL architecture勉強会)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会)

Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会) (11)

論文紹介 No-Reward Meta Learning (RL architecture勉強会)

Editor's Notes