Submit Search
Upload
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
•
Download as PPTX, PDF
•
2 likes
•
1,540 views
Y
Yusuke Nakata
Follow
RL architecture勉強会での発表資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 44
Download now
Recommended
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
強化学習における好奇心
強化学習における好奇心
Shota Imai
Recommended
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
強化学習における好奇心
強化学習における好奇心
Shota Imai
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
Non-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
World model
World model
harmonylab
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
More Related Content
What's hot
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
Non-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
World model
World model
harmonylab
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
What's hot
(20)
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
報酬設計と逆強化学習
報酬設計と逆強化学習
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Non-autoregressive text generation
Non-autoregressive text generation
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
GAN(と強化学習との関係)
GAN(と強化学習との関係)
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
ドメイン適応の原理と応用
ドメイン適応の原理と応用
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
World model
World model
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会)
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
C# から java へのプログラム移植で体験したtddの効果は?
C# から java へのプログラム移植で体験したtddの効果は?
Shinichi Hirauchi
ビジネス的に高価値なアジャイルテスト
ビジネス的に高価値なアジャイルテスト
Tsutomu Chikuba
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
Akisato Kimura
オブジェクト指向プログラミング教育法序説
オブジェクト指向プログラミング教育法序説
seastar orion
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
Masato Nakai
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会)
(11)
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
C# から java へのプログラム移植で体験したtddの効果は?
C# から java へのプログラム移植で体験したtddの効果は?
ビジネス的に高価値なアジャイルテスト
ビジネス的に高価値なアジャイルテスト
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
オブジェクト指向プログラミング教育法序説
オブジェクト指向プログラミング教育法序説
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
1.
論文紹介 NoRML: No-Reward Meta
Learning D1 中田勇介 2019/05/21 強化学習アーキテクチャ勉強会
2.
002 / 実環境で実行可能な方策を学習するためのMeta-Learning手法を提案 ・シミュレータで学習 ->
実環境で方策を適応 ・特徴:実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 ・著者:Yuxiang Yang, Ken Caluwaerts, Atil Iscen, Jie Tan, Chelsea Finn ・実装:https://github.com/google-research/google-research/tree/master/norml どんな論文?
3.
003 / 1. Introduction 2.
Preliminaries 3. NO-REWARD META LEARNING (提案法) 4. Experiments 5. Related Work 6. まとめ Outline
4.
004 / ・(モデルフリー)強化学習には多くの試行錯誤が必要 ・実環境では試行錯誤するのは困難 ・シミュレータで実環境のダイナミクスを再現するのは困難 ・シミュレータで学習させた方策を実環境に適応 Introduction
5.
005 / 想定している状況 [Tan+, 2018]
6.
006 / Notation 状態集合 行動集合 状態遷移確率 報酬関数 軌跡 方策 Preliminaries
7.
007 / Model-free Reinforcement
Learning ・Loss function Preliminaries
8.
008 / Model-free Reinforcement
Learning ・Loss function ・Policy Gradient ・Advantage function Preliminaries
9.
009 / 学習タスク〜 を用いてテストタスク〜
に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. Meta Learningとは
10.
0010 / 学習タスク〜 を用いてテストタスク〜
に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. ・NoRMLにおける仮定 タスク間で共通 : , , タスク間で異なる: Meta Learningとは
11.
0011 / Model-Agnostic Meta
Learning (MAML)
12.
0012 / Model-Agnostic Meta
Learning (MAML)
13.
0013 / MAML on
Model-free RL Policy Gradient
14.
0014 / ・Policy Gradient ・Update
Rule MAML on Model-free RL
15.
0015 / MAML on
Model-free RL
16.
0016 / MAML on
Model-free RL
17.
0017 / MAML on
Model-free RL
18.
0018 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法)
19.
0019 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法)
20.
0020 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法) 全タスクで共通
21.
0021 / NO-REWARD META
LEARNING (提案法)
22.
0022 / NO-REWARD META
LEARNING (提案法)
23.
0023 / NO-REWARD META
LEARNING (提案法)
24.
0024 / 比較対象 ・MAML ・Domain Randomization Experiments
25.
0025 / Domain Randomization
26.
0026 / 実験環境 ・Point Agent
with Rotation Bias ・Cartpole with Sensor Bias ・Half Cheetah with Swapped Actions Experiments
27.
0027 / Point Agent
with Rotation Bias (-2, 2) (2, 2) (2, -2)(-2, -2) x Goal (1, 0) action Rotation bias Next state State(0, 0)
28.
0028 / Point Agent
with Rotation Bias
29.
0029 / Point Agent
with Rotation Bias
30.
0030 / Point Agent
with Rotation Bias
31.
0031 / Cartpole with
Sensor Bias
32.
0032 / Cartpole with
Sensor Bias
33.
0033 / Half Cheetah
with Swapped Actions
34.
0034 / Half Cheetah
with Swapped Actions
35.
0035 / https://sites.google.com/view/noreward-meta-rl/ Half Cheetah
with Swapped Actions
36.
0036 / Meta reinforcement
learningの分類 - Recurrent based: RL2, Attentive meta learner, etc. - エピソードを記憶させることで環境の違いを認識 - Gradient-based: NoRML(this work), MAML, etc. - 勾配法でパラメータを更新し環境に適応 - Hybrid-based: Evolved Policy Gradient, Meta-critic network, etc - 上の二つのハイブリッド Related Work
37.
0037 / ダイナミクスの変化に対する他のアプローチ - Adaptive
inverse control - Self-modeling - Bayesian optimization - Online system identification Related Work
38.
0038 / 実環境で実行可能な方策を学習するNoRMLを提案 提案内容:Learned Advantage
Function, Offset ・シミュレータで学習 -> 実環境で方策を適応 ・実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 まとめ
39.
0039 / おまけ:AAMAS2019参加報告 http://www.kamishima.net/archive/MLDMAImap.pdf
40.
0040 / おまけ:AAMAS2019参加報告
41.
0041 / おまけ:AAMAS2019参加報告
42.
0042 / おまけ:AAMAS2019参加報告
43.
0043 / おまけ:AAMAS2019参加報告
44.
0044 / おまけ:AAMAS2019参加報告
Editor's Notes
この論文ではないが,Learning to
Download now