Contenu connexe
Similaire à 【DL輪読会】Scaling laws for single-agent reinforcement learning (20)
Plus de Deep Learning JP (20)
【DL輪読会】Scaling laws for single-agent reinforcement learning
- 2. 2023/02/10
2
書誌情報
1.Intro
論文名 Scaling laws for single-agent reinforcement learning
著者 Jacob Hilton, Jie Tang, John Schulman (Open AI)
投稿 arXiv 31st Jan. 2023
概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入
• モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見
られた
• 計算予算と最適なモデルサイズの関係もべき乗則に従う
- 3. 2023/02/10
3
べき乗則
1.Intro
Test
Loss
Scaling Laws for Neural Language Models - Kaplanら(2020)
べき乗則(Scaling Laws)
Okimuraさん輪読資料より
https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l
anguage-models
OpenAIの大規模モデル
Scaling Laws
RL分野でのブレイクスルーが接
深層学習でのべき乗
則
モデルサイズや計算コストをかければ性能がべき乗則に従い
増える。
- 5. 2023/02/10
5
Intrinsic performance - RLでべき乗則を示すには
2.Scaling laws without cross-entropy loss
“自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。
スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増
加。
Star pilot
性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。
定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に
到達するように学習させるために必要な最小の計算量」
→ 定義が難解であるため学習曲線のグラフで理解
- 6. 2023/02/10
6
Intrinsic performanceのグラフの読み方(輪読者の解釈)
2.Scaling laws without cross-entropy loss
・ (b)では(a)の縦軸をIntrinsic performanceに変えた。
・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え)
・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。
→ Efficeint Frontierに接する点が重要
・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている
・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている
- 7. 2023/02/10
7
Intrinsic performanceに対するべき乗則 ・ 計算量に対する最適なモデルサイズ
2.Scaling laws without cross-entropy loss
Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。
十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。
十分なモデルサイズである場合、IはEのべき乗則に従う。
I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数
※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。
ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に
従う。
計算量に対する最適なモデルサイズ:(1)から導出される補題
1
べき乗則:式(1)の解釈
- 8. 2023/02/10
8
実験環境・アルゴリズム等の条件
3.Experimental Setup
Star pilot
1. Procgen Benchmark
Coin Run
2. Dota2
3. MNIST
各ゲームにEasy, Hard
の2種のモード
PPG-EWMA
CNNのサイズを様々変
更
1vs1のMOVAゲーム
PPO
LSTMのサイズを様々変
更
数字を当てられたらreward1が得られる。
GAE(Generalized Advantage Estimation)
のパラメータを変更することで、Horizon length
(未来のどこまでを考慮するか)の影響を調べる
PPO-EWMA
CNNのサイズを様々変更
強化学習でなくても解けるが、強化学習の枠組みに落とし込
んで学習させる。
Fruit Bot
- 14. • 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance を導入
• 計算量に基づく指標
• 定義は難解であるので、今回は学習曲線を用いた解釈を紹介
• モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた
• 実験により、経験則の成立を確認
• 計算予算と最適なモデルサイズの関係もべき乗則に従う
• べき乗則に影響を与える条件の整理
感想
• MNISTの実験を深く理解できず…
• RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。
2023/02/10
14
まとめ