SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
http://deeplearning.jp/
“Scaling laws for single-agent reinforcement learning”
東京大学工学系研究科 稲富翔伍
DEEP LEARNING JP
[DL Papers] 1
2023/02/10
2
書誌情報
1.Intro
論文名 Scaling laws for single-agent reinforcement learning
著者 Jacob Hilton, Jie Tang, John Schulman (Open AI)
投稿 arXiv 31st Jan. 2023
概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入
• モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見
られた
• 計算予算と最適なモデルサイズの関係もべき乗則に従う
2023/02/10
3
べき乗則
1.Intro
Test
Loss
Scaling Laws for Neural Language Models - Kaplanら(2020)
べき乗則(Scaling Laws)
Okimuraさん輪読資料より
https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l
anguage-models
OpenAIの大規模モデル
Scaling Laws
RL分野でのブレイクスルーが接
深層学習でのべき乗
則
モデルサイズや計算コストをかければ性能がべき乗則に従い
増える。
2023/02/10
4
生成モデルとRLのべき乗則
1.Intro
生成モデル(ここではGPTのような自己回帰型の言語生成モデル)
Loss:クロスエントロピー誤差が用いられる。
モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた(Smooth power laws)。
RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。
- サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指
標。
一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。
例:物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。
そこで、性能指標“Intrinsic performance”を導入。
- 計算量に基づいた指標
これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。
結論:べき乗則に従い性能増加する!
強化学習
アナロジー:生成モデルでの、“自然な“指標以外のべき乗
則
「計算予算が一定のときのテスト時ロスが最小となる最適モ
デルサイズは、計算予算のべき乗則に従う。」
=計算予算を倍に増やすなら、モデルサイズも倍にすれば
よい。
2023/02/10
5
Intrinsic performance - RLでべき乗則を示すには
2.Scaling laws without cross-entropy loss
“自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。
スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増
加。
Star pilot
性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。
定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に
到達するように学習させるために必要な最小の計算量」
→ 定義が難解であるため学習曲線のグラフで理解
2023/02/10
6
Intrinsic performanceのグラフの読み方(輪読者の解釈)
2.Scaling laws without cross-entropy loss
・ (b)では(a)の縦軸をIntrinsic performanceに変えた。
・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え)
・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。
→ Efficeint Frontierに接する点が重要
・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている
・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている
2023/02/10
7
Intrinsic performanceに対するべき乗則 ・ 計算量に対する最適なモデルサイズ
2.Scaling laws without cross-entropy loss
Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。
十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。
十分なモデルサイズである場合、IはEのべき乗則に従う。
I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数
※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。
ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に
従う。
計算量に対する最適なモデルサイズ:(1)から導出される補題
1
べき乗則:式(1)の解釈
2023/02/10
8
実験環境・アルゴリズム等の条件
3.Experimental Setup
Star pilot
1. Procgen Benchmark
Coin Run
2. Dota2
3. MNIST
各ゲームにEasy, Hard
の2種のモード
PPG-EWMA
CNNのサイズを様々変
更
1vs1のMOVAゲーム
PPO
LSTMのサイズを様々変
更
数字を当てられたらreward1が得られる。
GAE(Generalized Advantage Estimation)
のパラメータを変更することで、Horizon length
(未来のどこまでを考慮するか)の影響を調べる
PPO-EWMA
CNNのサイズを様々変更
強化学習でなくても解けるが、強化学習の枠組みに落とし込
んで学習させる。
Fruit Bot
2023/02/10
9
べき乗則の成立 ・ 2つの指数の関係
4.Results
式(1) は学習初期を除いて、様々な環境・モデルサイズに対して成
立。
“Main Result”
2つの指数の関係
2023/02/10
10
計算量と最適なモデルサイズの関係
4.Results
・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数(傾き)は0.5に近
づく。
- 今回の実験だけでは結論が出ない。
・係数(グラフの切片に相当)については環境によって大きく違うことが分かる。
・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。
- RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響
※ここでは環境の実行コストは考慮しない →後で考
慮
補題1(再掲)
Procgen 0.40~0.65
MNIST 0.66~0.80
Dota 2 0.76
指数 の値
2023/02/10
11
Forward pass のモデルサイズと計算量
4.Results
Forward pass を指標に用いることでスケーリングの関係が類似す
る。
パラメタ毎のFLOPs(層の深さ)を考慮できるため。
2023/02/10
12
サンプル効率の外挿 ・ 環境の実行を考慮した最適モデルサイズ
5.Discussion
モデルサイズを無限大にすると、10^7.0モデル
の最大性能まで、半分のインタラクションで到
達
サンプル効率について議論するなら、環境の実行
コストを考慮する必要がある。
計算費用をかける際、モデルサイズが環境サイズ
より小さい場合、非効率である。
サンプル効率の外
挿
環境の実行を考量した最適モデルサイ
ズ
2023/02/10
13
計算量の予測のために
5.Discussion
・べき乗則の指数は生成モデルと同程度
- 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。
・べき乗則の係数は数桁の差がある
- Horizon lengthにより説明できる
・演算強度の違い(モデルのパラメタ毎のFLOPs)を考慮するためにはForward
passのFLOPsを使用する
・サンプル効率はHorizon lengthのアフィン関数である。
・べき乗則の指数の正確な予測は困難
Transformative AI(破壊的・強力なAI)を作るためには?
- 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要
• 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance を導入
• 計算量に基づく指標
• 定義は難解であるので、今回は学習曲線を用いた解釈を紹介
• モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた
• 実験により、経験則の成立を確認
• 計算予算と最適なモデルサイズの関係もべき乗則に従う
• べき乗則に影響を与える条件の整理
感想
• MNISTの実験を深く理解できず…
• RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。
2023/02/10
14
まとめ

Contenu connexe

Tendances

Tendances (20)

[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 

Similaire à 【DL輪読会】Scaling laws for single-agent reinforcement learning

学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス
miraikenkyu
 
横幹連合サービス科学
横幹連合サービス科学横幹連合サービス科学
横幹連合サービス科学
Yuriko Sawatani
 

Similaire à 【DL輪読会】Scaling laws for single-agent reinforcement learning (20)

【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
第3回NIPS読み会・関西発表資料
第3回NIPS読み会・関西発表資料第3回NIPS読み会・関西発表資料
第3回NIPS読み会・関西発表資料
 
Elastic ML Introduction
Elastic ML IntroductionElastic ML Introduction
Elastic ML Introduction
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
 
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
 
IVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AIIVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AI
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
 
学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス
 
LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
横幹連合サービス科学
横幹連合サービス科学横幹連合サービス科学
横幹連合サービス科学
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

【DL輪読会】Scaling laws for single-agent reinforcement learning