【DL輪読会】Scaling laws for single-agent reinforcement learning

http://deeplearning.jp/
“Scaling laws for single-agent reinforcement learning”
東京大学工学系研究科稲富翔伍
DEEP LEARNING JP
[DL Papers] 1

2023/02/10
2
書誌情報
1.Intro
論文名 Scaling laws for single-agent reinforcement learning
著者 Jacob Hilton, Jie Tang, John Schulman (Open AI)
投稿 arXiv 31st Jan. 2023
概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入
• モデルサイズ・環境へのインタラクション（データ収集）についてべき乗則が見
られた
• 計算予算と最適なモデルサイズの関係もべき乗則に従う

2023/02/10
3
べき乗則
1.Intro
Test
Loss
Scaling Laws for Neural Language Models - Kaplanら(2020)
べき乗則（Scaling Laws）
Okimuraさん輪読資料より
https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l
anguage-models
OpenAIの大規模モデル
Scaling Laws
RL分野でのブレイクスルーが接
深層学習でのべき乗
則
モデルサイズや計算コストをかければ性能がべき乗則に従い
増える。

2023/02/10
4
生成モデルとRLのべき乗則
1.Intro
生成モデル（ここではGPTのような自己回帰型の言語生成モデル）
Loss：クロスエントロピー誤差が用いられる。
モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた（Smooth power laws）。
RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。
- サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指
標。
一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。
例：物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。
そこで、性能指標“Intrinsic performance”を導入。
- 計算量に基づいた指標
これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。
結論：べき乗則に従い性能増加する！
強化学習
アナロジー：生成モデルでの、“自然な“指標以外のべき乗
則
「計算予算が一定のときのテスト時ロスが最小となる最適モ
デルサイズは、計算予算のべき乗則に従う。」
＝計算予算を倍に増やすなら、モデルサイズも倍にすれば
よい。

2023/02/10
5
Intrinsic performance - RLでべき乗則を示すには
2.Scaling laws without cross-entropy loss
“自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。
スコア5-10の間（下図黄枠）で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増
加。
Star pilot
性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。
定義：「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に
到達するように学習させるために必要な最小の計算量」
→ 定義が難解であるため学習曲線のグラフで理解

2023/02/10
6
Intrinsic performanceのグラフの読み方（輪読者の解釈）
・ (b)では(a)の縦軸をIntrinsic performanceに変えた。
・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。（定義の読み替え）
・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。
→ Efficeint Frontierに接する点が重要
・ Power law asymptote（漸近線）は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている
・モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている

2023/02/10
7
Intrinsic performanceに対するべき乗則・計算量に対する最適なモデルサイズ
Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。
十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。
十分なモデルサイズである場合、IはEのべき乗則に従う。
I:Intrinsic performance, N:モデルサイズ（パラメタ数）, E:環境とのインタラクション, その他は正の定数
※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。
ある一定の計算予算（計算量）の制限における最適なモデルサイズは、計算予算のべき乗則に
従う。
計算量に対する最適なモデルサイズ：(1)から導出される補題
1
べき乗則：式(1)の解釈

2023/02/10
8
実験環境・アルゴリズム等の条件
3.Experimental Setup
Star pilot
1. Procgen Benchmark
Coin Run
2. Dota2
3. MNIST
各ゲームにEasy, Hard
の2種のモード
PPG-EWMA
CNNのサイズを様々変
更
1vs1のMOVAゲーム
PPO
LSTMのサイズを様々変
更
数字を当てられたらreward1が得られる。
GAE(Generalized Advantage Estimation)
のパラメータを変更することで、Horizon length
（未来のどこまでを考慮するか）の影響を調べる
PPO-EWMA
CNNのサイズを様々変更
強化学習でなくても解けるが、強化学習の枠組みに落とし込
んで学習させる。
Fruit Bot

2023/02/10
9
べき乗則の成立・ 2つの指数の関係
4.Results
式(1) は学習初期を除いて、様々な環境・モデルサイズに対して成
立。
“Main Result”
2つの指数の関係

2023/02/10
10
計算量と最適なモデルサイズの関係
4.Results
・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数（傾き）は0.5に近
づく。
- 今回の実験だけでは結論が出ない。
・係数（グラフの切片に相当）については環境によって大きく違うことが分かる。
・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。
- RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響
※ここでは環境の実行コストは考慮しない →後で考
慮
補題1（再掲）
Procgen 0.40～0.65
MNIST 0.66～0.80
Dota 2 0.76
指数の値

2023/02/10
11
Forward pass のモデルサイズと計算量
4.Results
Forward pass を指標に用いることでスケーリングの関係が類似す
る。
パラメタ毎のFLOPs（層の深さ）を考慮できるため。

2023/02/10
12
サンプル効率の外挿・環境の実行を考慮した最適モデルサイズ
5.Discussion
モデルサイズを無限大にすると、10^7.0モデル
の最大性能まで、半分のインタラクションで到
達
サンプル効率について議論するなら、環境の実行
コストを考慮する必要がある。
計算費用をかける際、モデルサイズが環境サイズ
より小さい場合、非効率である。
サンプル効率の外
挿
環境の実行を考量した最適モデルサイ
ズ

2023/02/10
13
計算量の予測のために
5.Discussion
・べき乗則の指数は生成モデルと同程度
- 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。
・べき乗則の係数は数桁の差がある
- Horizon lengthにより説明できる
・演算強度の違い（モデルのパラメタ毎のFLOPs）を考慮するためにはForward
passのFLOPsを使用する
・サンプル効率はHorizon lengthのアフィン関数である。
・べき乗則の指数の正確な予測は困難
Transformative AI（破壊的・強力なAI）を作るためには？
- 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要

• 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance を導入
• 計算量に基づく指標
• 定義は難解であるので、今回は学習曲線を用いた解釈を紹介
• モデルサイズ・環境へのインタラクション（データ収集）についてべき乗則が見られた
• 実験により、経験則の成立を確認
• 計算予算と最適なモデルサイズの関係もべき乗則に従う
• べき乗則に影響を与える条件の整理
感想
• MNISTの実験を深く理解できず…
• RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。
2023/02/10
14
まとめ

【DL輪読会】Scaling laws for single-agent reinforcement learning

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 【DL輪読会】Scaling laws for single-agent reinforcement learning

Similaire à 【DL輪読会】Scaling laws for single-agent reinforcement learning (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】Scaling laws for single-agent reinforcement learning