Soumettre la recherche
Mettre en ligne
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
•
Télécharger en tant que PPTX, PDF
•
2 j'aime
•
2,466 vues
Deep Learning JP
Suivre
2019/07/05 Deep Learning JP: http://deeplearning.jp/seminar-2/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 26
Télécharger maintenant
Recommandé
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa
Recommandé
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
バンディット問題について
バンディット問題について
jkomiyama
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
最適化超入門
最適化超入門
Takami Sato
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
SentokyoKansai(20110917)
SentokyoKansai(20110917)
真 岡本
Contenu connexe
Tendances
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
バンディット問題について
バンディット問題について
jkomiyama
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
最適化超入門
最適化超入門
Takami Sato
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
Tendances
(20)
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
バンディット問題について
バンディット問題について
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
最適化超入門
最適化超入門
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Triplet Loss 徹底解説
Triplet Loss 徹底解説
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
Similaire à [DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
SentokyoKansai(20110917)
SentokyoKansai(20110917)
真 岡本
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
Deep Learning JP
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
Deep Learning JP
分散表現に基づく文書要約#yjdsw1
分散表現に基づく文書要約#yjdsw1
Yahoo!デベロッパーネットワーク
IEICE(20120321)
IEICE(20120321)
真 岡本
Plone features and trends
Plone features and trends
Takanori Suzuki
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Eric Sartre
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
Code4Lib JAPAN
Rm20150701 9key
Rm20150701 9key
youwatari
勉強会旅人のススメ
勉強会旅人のススメ
and hyphen
Similaire à [DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
(12)
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
SentokyoKansai(20110917)
SentokyoKansai(20110917)
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
分散表現に基づく文書要約#yjdsw1
分散表現に基づく文書要約#yjdsw1
IEICE(20120321)
IEICE(20120321)
Plone features and trends
Plone features and trends
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
Rm20150701 9key
Rm20150701 9key
勉強会旅人のススメ
勉強会旅人のススメ
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Dernier
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Dernier
(10)
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Model-Based Reinforcement Learning via Meta-Policy Optimization Keno Harada, UT PSI 3rd
2.
書誌情報 • タイトル: Model-Based
Reinforcement Learning via Meta-Policy Optimization(CoRL 2018) • 著者: Ignasi Clavera, Jonas Rothfuss, John Schulman, Yasuhiro Fujita, Tamim Asfour, Pieter Abbeel (UC Berkeley, KIT, OpenAI, PFN) • ICMLでのPieter Abbeelのセッション中に紹介(しかしskipされていた) – Some of our Explorations of Exploration in RL • ダイナミクスモデル学習の探索 • その他: – Arxiv: https://arxiv.org/pdf/1809.05214.pdf – Webpage: https://sites.google.com/view/mb-mpo/home?authuser=0 – Talk: https://www.facebook.com/icml.imls/videos/2265408103721327/ – Slides: https://www.dropbox.com/s/4t1a3dpldgqtqk6/2019_06_15_ICML%20Exploration%20in%20RL% 20workshop.pdf?dl=0 – 松嶋さん評価: 星5つ 2
3.
ICML セッションより 310分でレゴブロックを積むタスクを学習したらしい(論文中には言及なし, 動画も最後まで見れなかった)
4.
アジェンダ 1. 背景 2. 概要 3.
提案手法 4. 実験結果 5. まとめ 6. 疑問点 4
5.
背景 背景 • モデルフリー – 良い性能を発揮するが学習にdataが大量に必要 •
NN使うとよりデータが必要に • Roboticsのようなtaskではdataを集めるのに時間がかかる • モデルベース – 環境のダイナミクスをモデル化し学習を効率的に – 正確な環境のダイナミクスの学習難しい – モデルバイアス問題 • ダイナミクスモデルの学習が不十分なため良い方策を学習できない 5
6.
背景 モデルバイアス問題 6 Image from http://mlg.eng.cam.ac.uk/pub/pdf/DeiRas11.pdf Image
from http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec- 12.pdf
7.
背景 ダイナミクスモデルの不正確性への対応策(先行研究) • ダイナミクスモデルのアンサンブルを使用した方法 – Model-Ensemble
Trust-Region Policy Optimization(ME-TRPO)など • オンライン適応していく方法 – One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priorsなど • 困難なタスクではうまくいかない • Model Predictive Control – 各ステップにおいてre-planning – 計算コストの大きさや行動の評価の難しさ • Robust policy optimization – どのようなダイナミクスモデルでもよく立ち回るような方策を学習 – over-conservative(?)な方策になりがち 7
8.
概要 提案手法: Model-Based Meta-Policy-Optimization(MB-MPO)の気持ち •
ダイナミクスモデルが正しく学習されるという望み?前提?から依存性をなく す • ダイナミクスモデルを複数学習し, その中の任意のモデルに対して1step方 策勾配を更新すれば適応するようなpolicyをメタ学習する • 異なるダイナミクスモデルでも最適な行動をとる方策を学ぶのではなく, ダ イナミクスモデルに対して1step更新方策をとることで対応させ, メタpolicyが アンサンブル全体において一貫性のあるダイナミクスの予測を内部化する よう方向づける – ??? 8
9.
概要 モデルベース強化学習 • Dyna-style – リアルデータを集めダイナミクモデルを学習し,
そのモデルが仮想データを作成し (simulationし)それを元に方策を更新 • ME-TRPO, SLBO, MB-MPO • Policy Search with Backpropagation through Time – ダイナミクスモデルの勾配を使って方策を更新 • PILCO, iLQG, GPS, SVG • Shooting Algorithm – Model predictive control系 • RS, MB-MF, PETS-RS, PETS-CEM 9
10.
概要 • メタ学習: – 新しいシナリオやタスクに少数のサンプルでうまく適応するようなモデルを学習 •
メタ強化学習 – 報酬関数あるいは遷移関数が異なるMDPタスクの集合から一つのMDPタスクを取り 出した時に素早く最適方策を学ぶような学習アルゴリズムを学ぶ 10 Image from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQWwRosdiVBVGm8uYx/view
11.
概要 MAML: どんなtaskにも数stepで最適化できるような共通の初期パラメータを 求める – 近藤さんの過去資料https://www.slideshare.net/DeepLearningJP2016/modelagnostic-metalearning-for-fast-adaptation-of- deep-network 11 Slide
from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQW wRosdiVBVGm8uYx/view
12.
提案手法 MB-MPO 12
13.
提案手法 ダイナミクスモデルの学習 • それぞれのモデル初期値ランダム, 学習に使うデータも異なるように設定 •
適応stepを経た方策でサンプルデータを集め, ダイナミクスモデルの学習に 使用 13
14.
提案手法 • ダイナミクスモデルの学習 14
15.
提案手法 ダイナミクスモデルを使った方策のメタ学習 • Gradient-based メタ学習のMAMLを使用 •
環境のダイナミクスが異なるタスク間においてのメタ学習問題 – Reward functionは同じ • 方策更新の際にはダイナミクスモデルを使用してroll-outを行い報酬を計算 し更新 15
16.
提案手法 ダイナミクスモデルを使った方策のメタ学習 16 TRPO VPG
17.
実験結果 • 既存のモデルベース・モデルフリーの手法と比べてサンプル効率・性能は どうか – Mujocoの6つのタスクで検証 –
https://sites.google.com/view/mb-mpo/videos?authuser=0 • ダイナミクスモデルの不確実性と方策の可塑性 • MB-MPOの頑健性 17
18.
実験結果(モデルフリーとの比較) 18
19.
実験結果(既存モデルベースとの比較) 19
20.
実験結果(ダイナミクスモデルの不確実性と方策の可塑性) 20 [0, 0]から離れるにつれ低い精度予測と高いKL-divergence
21.
実験結果(MB-MPOの頑健性) 21 ダイナミクスモデルの予測にノイズを加えた実験の比較(half-cheetah)
22.
実験結果(MB-MPOの頑健性(?)) 22 α=0.001とα=0(no-adapt)の比較 Planningを行なっているわけではな いのに何故この実験を? メタ学習の必要性を言いたいのか?
23.
まとめと今後の展望 • 複数のダイナミクスモデルを使い方策をメタ学習するMB-MPOを提唱 • モデルフリー並みの性能をよりsample
efficientに出す • 既存のモデルベースで課題であったモデルバイアス問題への新たな対応 策 • 複数のダイナミクスモデルを使用するのではなくベイジアンNNを使ってダイ ナミクスモデルを学習する • Real-worldロボティクスへの応用(すでに進行中?) 23
24.
Benchmarking Model-based Reinforcement
Learning(7/3) 24 いくつかのタスクでmodel basedで最高性能 Long horizon complex domainsにはあまりいい性能 を示さない
25.
Tailored data collection •
適応step後のpolicyでリアルデータをサンプルしているため集められるデー タが多様(という主張) – Post-update方策がoverfit, ダイナミクスモデルの予測が正しく予測できていないとこ ろのサンプルを集める(という主張) 25
26.
Hyperparameter study 26
Télécharger maintenant