強化学習エージェントの内発的動機付けによる探索とその応用（第4回統計・機械学習若手シンポジウム招待公演）

第４回統計・機械学習若手シンポジウム招待公演
強化学習エージェントの
内発的動機付けによる探索とその応用
東京大学大学院工学系研究科技術経営戦略学専攻
今井翔太
Email:imais@weblab.t.u-tokyo.ac.jp
2019年11月16日（2020年9月修正公開）
Twitter：えるエル@ImAI_Eruel

本資料について
 本資料は2019年11月15日~11月16日に行われた統計・機械学習若手シンボジウムで今井
が行った招待公演「強化学習エージェントの内発的動機付けによる探索とその応用」で
使用したものを，自主公開版として一部修正したものです
 新たにSlideShareで公開するにあたり，一部内容の修正（所属，手法の説明等）や表現
の変更を加えました
Shota Imai | The University of Tokyo
2

発表の前に
 基本的な強化学習の知識(Q学習など)はあることを前提に資料を作成しています
 強化学習，深層強化学習の基礎については，いくらでも詳しい資料があるため，
このスライドでは解説しません
 強化学習のニッチ分野の発表なので，「こんな概念・手法があるんだな」くらいの感覚
で聞いていただければ

発表内容
 人間と強化学習における内発的動機付け
 外発的報酬と内発的報酬
 内発的報酬の生成手法
- カウントベース
- 予測誤差
- その他の手法
 内発的報酬を用いた強化学習の応用
- 生体反応×内発的報酬
- ロボティクスにおける多様な行動
- マルチエージェント環境における協調行動誘発
- 世界モデルの構築

人間の内発的動機付け
 内発的動機付けの定義
外から与えられた何らかの目標やゴールの達成とは無関係に，自身の興味
に従って動機づけられること
→つまり自分の基準でゴールを定義している
例：学問における外発的動機付けと内発的動機付け
テストでいい点を取る，志望校に合格するため等のために学習する
→外発的動機付け
自分固有の興味対称に対する研究のために学習する
→内発的動機付け

強化学習における内発的動機付け
 通常の強化学習では，報酬は環境に固有のゴール状態や，特別な状態（アイテム獲得
等）に対して，環境から与えられる外発的報酬に依存する
→人間でいう外発的動機付け
 環境から与えられる報酬とは別に，何らかの基準でエージェント自身が報酬（内発的報
酬）を生成する強化学習
→人間における内発的動機付けに近い
特に状態がどれくらい未知であるか？を基準に内発的報酬を生成することが多く，一部の
手法は好奇心による探索（curiosity driven exploration）とも呼ばれる

強化学習における外的報酬と内発的報酬
外発的報酬（Extrinsic Reward）
- 環境で本来の目的を達成したときに獲得できる報酬𝑅 𝑒
内発的報酬(Intrinsic Reward)
- 環境内で何らかの基準で，エージェント自身が勝手に生み出す報酬𝑅𝑖．探索ボーナス
とも
最終的に受け取る報酬:𝑅 = 𝑅 𝑒 + 𝑅𝑖
エージェン
ト
報酬
普通の強化学習
外的な報酬だけに頼った場合
でも，ランダム探索で現実的
な時間で学習可能
報酬がスパースな場合
ランダム探索では，いつまで
たっても報酬到達しない
→何らかの基準で内発的報酬
を生成し，探索に方向性，偏
りを与える
例）行ったことのない状態に
到達すると報酬生成
エージェント
報酬
7
報酬がスパースなタスクで
はほとんどの場合0
報酬がスパースなタスクでも0になりにくく，外発
的報酬に代わって価値関数改善のきっかけとなる

内発的報酬を用いた強化学習手法
 状態への訪問回数のカウントベース手法
 予測器の予測誤差を用いた内発的報酬生成
 その他
- 遷移確率の変化＝環境に対する情報量の改善とみなして内発的報酬
- ２つのネットワーク間の蒸留と出力予測により内発的報酬生成
- 特殊な強化学習（？）

内発的報酬の例：カウントベースの内発的報酬
 ある状態𝑠で選択した行動aの回数をカウントし，𝑛(𝑠, 𝑎)とする
 𝑛(𝑠, 𝑎)に反比例して内発的報酬を与えると，𝑛(𝑠, 𝑎)が少ない (新規性が高い)状態遷移の
価値評価が高まる
いままであまり選択しなかった行動を選択すると，内発的報酬は，
𝛽
𝑛(𝑠, 𝑎 𝑢𝑝)
=
𝛽
1
𝛽
𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)
=
𝛽
2
と大きくなり，行動価値， 𝑄 𝑠, 𝑎 𝑢𝑝 や 𝑄 𝑠, 𝑎𝑙𝑒𝑓𝑡 は高く評価される
一方，今まで何度も選択した行動を選択すると，内発的報酬は，
𝛽
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)
=
𝛽
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)
=
𝛽
4
と小さくなり，行動価値， 𝑄 𝑠, 𝑎 𝑢𝑝 や 𝑄 𝑠, 𝑎𝑙𝑒𝑓𝑡 は低く評価される
内発的報酬𝑅𝑖𝑛
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)＝4𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)＝2
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)＝4
𝑛(𝑠, 𝑎 𝑢𝑝)＝1
9

人間が，ある種の探索課題をクリアする場合も内発的報酬を用いた探索に似たようなこ
とをしている
【ゲームのダンジョン探索の例】
 複数進行方向の候補がある
 今まで１度行ったことがある方向（青色矢印）は
目的地にたどり着かなかったので除外
 今まで行ったことがない方向（赤色矢印）の方向を
目指せばゴールにたどり着けそう
カウントベースの内発的報酬による探索のうれしさ（直観的に）
１回
１回
０回
ドラゴンクエスト2 ロンダルキアの洞窟
10

 状態数があまりにも多すぎたり，状態空間が連続の場合は，ほとんどの状態カウントが
ゼロになり，意味をなさない
 この性質上，最近の強化学習主要ベンチマークである物体制御タスクや，Atariゲームで
はほとんど意味がない
カウントベース手法の欠点
Atariゲーム：状態数が多すぎる物体制御：状態が連続値
11

Atariゲーム中，最高の難しさを誇るゲーム
最初の深層強化学習アルゴリズムDQNではスコア0でまったく攻略できず
このゲームの攻略のため，内発的報酬を用いるRL手法が注目，発展
難しいタスクの例 / Montezuma’s Revenge
• 計24個からなる全体マップ．各部屋も非常に広く，状態数も膨大
• 回り道→鍵入手→ロック解除など，一連の複雑な行動が必要
少
し
の
刺
激
で
死
亡
す
る
激
弱
主
人
公
12

疑似カウントベース手法（Pseudo-Count）
一つ一つの状態の訪問回数を直接カウントせず，画像ピクセル単位で見た状態の類似度，
発生確率から，疑似的に状態カウント
状態のハッシュ化を用いたカウントベース手法
状態をハッシュを用いて変換して抽象化し，似た状態をまとめてカウント
カウントベースを改良した手法
13

 観測𝑥𝑡と，その時選択する行動𝑎 𝑡から，次の観測𝑥𝑡+1がどうなるか予測するモデル
𝑓(𝑥𝑡, 𝑎 𝑡)を考える（順モデル）
 モデルの出力と実際に𝑥𝑡で𝑎 𝑡を選択した場合の次の観測𝑥𝑡+1を用いて二乗誤差を計算し，
NNを学習
 既に観測した遷移は予測精度が高くなり（二乗誤差が小さくなる），観測が少ない遷移
は予測精度が低くなる（二乗誤差が大きい）
→この予測誤差を内的報酬とすれば，未知状態への探索を促進可
予測誤差による内発的報酬生成
14

NoisyTV problem
 Unity（ゲームエンジン）で作った強化学習環境に，次々と違う映像が映し出されるテレ
ビを設置し，内発的報酬による探索をさせてみた
→エージェントの動きが止まってしまう
理由
- 常に観測がランダム変化することで，予測器の学習が意味をなさず，TVを観測する状態に高
い報酬が生成されるため
環境内の無意味な情報を無視できる
特徴抽出が必要
15
エージェント視点
壁のTVに映し出される画像が高速で切り替わり続ける
↑常に変化
↑どれだけ学習
しても予測でき
ない

エージェントにとって意味のある観測
 エージェントの観測には以下のものが含まれる
(1)エージェントに影響を与え，エージェントによって
コントロールできるもの
→マリオ本体
(2)エージェントに影響を与えるが，エージェントが直
接的にコントロールできないもの
→クリボーなどの敵
(3)エージェントに影響を与えず，エージェントがコン
トロールすることもできないもの（だけど予測誤差
には影響を与えてしまう）
→画面上部のコインのピカピカ
 (3)は無視して，(1)と(2)のみに注目したい
→無駄なものを無視する特徴抽出器を使用した予測誤差
16
(1)
(3)
(2
)

 エージェントの行動に関係があるもののみに注目する特徴抽出器を逆モデルを用いて学
習し，予測誤差により内発的報酬を生成する機構をつける
IＣＭ (Intrinsic Curiosity Module)
意図的にランダムノイズを入れたゲーム画面からでも，
うまく特徴抽出して学習可
17

 環境に対する情報量の改善＝好奇心とし，情報量が改善されるような状態遷移に対して
多くの内発的報酬を付与
 情報量の改善は，状態遷移前後の遷移確率の分布の分布間のKLダイバージェンス
 𝜉𝑡 = {𝑠1, 𝑎1, . . . , 𝑠𝑡}:時刻𝑡までの状態と行動による遷移の列
 𝑠𝑡：時刻tにおける状態
 𝑎 𝑡：時刻tでとった行動
 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡; 𝜃 ：𝑠𝑡で行動𝑎 𝑡を選択したとき状態𝑠𝑡+1に遷移する確率
その他の内発的報酬生成方式 / 情報量の改善による内発的報酬
VIME
18

その他の内発的報酬生成方式 / 二つのネットワークの蒸留と出力予測
RND（Random Network Distillation）
 二つのネットワーク，ターゲットネットワーク，予測ネットワークを用意
 両ネットワークに，評価したい状態を入力
 予測ネットはターゲットの出力を真似るよう学習を行い，両出力の二乗誤差が内的報酬
となる
→新しく観測した状態に大しては内発的報酬が大きくなる
19

RNDがMontezuma’s Revengeで初めて人間の平均スコア超え
↑DQNの悲惨なスコアから，
3年でここまで発展
20

余談：Montezuma’s Revengeのその後
（機械学習界隈の怖さ）

従来の好奇心による探索手法の問題点
 緑色の部分が内的報酬を獲得できる場所
（新規状態）
 渦の中心ほど，深い探索が必要
 一度は内的報酬に従って，深い状態まで探
索を行っても，何らかの理由で別エリア
の探索に切り替わった場合を考える
 そうすると，既に探索済みの場所（白い部
分）は内的報酬が得られないため，深い状
態に到達するための探索が難しくなる

Go-Explore/大まかな手法の概要
２つのフェーズに分けてエージェントの学習を行う
 フェーズ１：目標状態到達まで探索
- 探索をしながら，特定の状態”Cell”をArchiveに追加
- 探索のスタート時にArchiveからランダムにCellを選択し,
その状態まで移動
- その状態からスタートしてランダム探索(繰り返し)
 フェーズ２：方策のロバスト化
- フェーズ１で得られた軌道のうち目標に到達した軌道を
通るような方策を模倣学習で獲得
23
ここまで解説してきた内発的報酬とは本質的に関係がなく，特殊な手法

内発的報酬を用いた応用手法
Atariや迷路，物体制御などの主要ベンチマークだけでなく，内発的報酬を用いて特定の課
題に取り組んだ研究をいくつか紹介します
 人間の生体反応を用いた内発的報酬生成
 内発的報酬を用いたロボットの優しい操作獲得
 マルチエージェントタスクで，影響のある行動に報酬を与えて協調行動誘発
 内発的報酬により環境の重要情報を保持する世界モデル構築

人間の生体反応を元にした内発的報生成
外的な報酬𝑟と，人間の生体反応を教師データとして学習したCNNの出力
から得た内発的報酬 𝑟を重みづけし，最終的な報酬とする
CNNの学習には，実際に人間の運転手を運転させて得た運転者視点画像
と，生体パルスを使用
(一種の模倣学習といえる)
Visceral Machines
Daniel McDuff and Ashish Kapoor. Visceral Machines: Reinforcement
Learning with Intrinsic Rewards that Mimic the Human Nervous System.

人間の生体反応を元にした内発的報生成/実験と結果
 実験環境として，運転シミュレータAirSimを使用
 ベースアルゴリズムとしてはDQNを使用
 重みλが1の場合は外的報酬のみによるただのDQN，0の場合は内発的報酬のみに頼った
学習となる
運転の各要素の制御タスク
におけるパフォーマンス
以下に長くエピソードを続け
られるか（衝突したら終了）

壊れやすい物体操作のための優しい操作を内発的報酬により獲得
ロボットによる壊れやすい物体操作には，強すぎる操作をした場合の罰則
を与える必要があるが，これだけでは局所解に陥る
これを回避するため，ペナルティに加えて，環境に対する予測誤差の内発
的報酬と，ペナルティに対する予測誤差の内的報酬を導入
内発的報酬
- Impact Penelty:
時刻𝑡でエージェントが与えた衝撃に対する罰則報酬
- Deynamics-based surprise
複数ネットワークに行動と状態を入力し，出力の分散が大きければ報酬大
- Penalty-based surprise
Impact Penaltyをベースに報酬生成
最終的な報酬はタスク報酬と
これらの組み合わせ
学習手法としてはD4PGを使用

壊れやすい物体操作のための優しい操作を内発的報酬により獲得
/実験と結果
 タスクの外部報酬，強い操作に対するペナルティ，2つの予測誤差による内発的報酬の組
み合わせを変えてみたパフォーマンスの違い
 上が物体圧縮操作，下は壊れやすいブロック操作
28
ペナルティの予測誤差による内発的報酬が
一番効いており，両タスクで高いパフォーマ
ンス

マルチエージェント強化学習における，影響を考慮した
内発的報酬による協調行動誘発
普通のマルチエージェント強化学習
エージェント同士の行動の組合せが偶然効果を発揮し，良い結果が
出たときのみに報酬
→偶然の発生に頼るしかなく，不安定
内発的報酬を導入すると・・・
あるエージェントが何かをしたときに他のエージェントに与えた影響が大
きい場合に追加報酬
→成功＝報酬に到達する必要はないため，頻繁に起きる

実験タスク設定
前提条件：各エージェントの視覚は限られている
Cleanup
あるエージェントが川（画面内暗い青色）のゴミ（茶色）に対して一定範囲のお掃除ビー
ムを出してゴミを消すと，マップ内にリンゴ（緑）が出現．エージェントがリンゴと同じ
マスに行くと報酬獲得．あるエージェントが川の掃除をしつつ，各エージェントは他の
エージェントが見えないものを率先して取ることが必要
Harvest
エリア内のリンゴ（緑）を収穫ビームの範囲に入れると報酬を得る．リンゴは収穫後に生
えてくるが，生えてくる速度は近くのリンゴの量に比例する．エージェントが近くのリン
ゴを取り合うと，みんな報酬を得られなくなってしまう
Clean
up
Harves
t

実験結果
縦軸が全エージェントの総獲得報酬量．横軸はステップ数（経過時間）
Infuluenceが論文の提案手法
他の手法より最終的な獲得報酬量が大きくなっている＝協力してタスクをこなせ
るようになっている

環境の重要な情報を発見する世界モデル構築
World Discovery Models
 環境の構造をモデリングする世界モデルに関する研究
 通常の強化学習とは違い，環境内で与えられた明確なタスクを解く方策を学習するので
はなく，内発的報酬により学習した方策で，環境に関する重要な情報をどれだけ捉えら
れるかをみる
世界モデル(World Model)
今までの遷移情報から得た表現を保持するRNN(GRU)と，その表
現を用いて，kステップ先の観測𝑜𝑡+𝑘の確率分布 𝑝𝑡+𝑘|𝑡を出力する
MLPからなる
Reward Generator
世界モデルの出力から内発的報酬生成
RL Agent
実際に報酬を受け取って方策を学習する部分
(世界モデル的にはコントローラ)．R2D2で学習
Evaluation
探索性能向上や方策改善とは直接関係ない．
世界モデルの内部表現の良さを評価する部分

NDIGO/世界モデル
各タイムステップkにおける観測の分布を出
力
各タイムステップにおける行動と，
GRUの出力をMLPの入力とする
NDIGO(Neural Differential Information Gain Optimization)
予測誤差
学習のた
めのロス
内発的報酬
時間的に差がある予測誤差の差

実験と結果
POMDPの設定で，環境内に存在するいくつかのオブジェクトの中から，重要な情報を内
部表現として獲得し，逆にランダムに動く物体など，重要でないものを無視できるかみる
 時間が進むごとに，fixed（赤色動きに規則性あ
り）の状態推定ができている
 White noise (黄緑ランダムな動き)は推定できな
いので，ずっとバラバラなまま
• fixedのvisit countが→fixedに集中して行動
• White noiseのvisit countが小→white noiseを無視
• Fixedのvisit timeが小→すぐにfixedを発見可能
• White noiseのvisit timeが大→white noiseに向かわない行動
POMDPにおける環境状態推
定
オブジェクトへの到達数と到達時間

内発的報酬の生成手法/まとめ
 環境内で何か数値で表せる対称がある場合，大体は内発的報酬生成のきっかけにできる
 ただし，あるタスクに固有のイベントを内発的報酬の生成きっかけにすると，他のタス
クでは使用できないアルゴリズムとなる
 様々なタスクに共通する概念をうまく見つけ出して，報酬生成のきっかけにすれば様々
な分野への応用が期待できる

強化学習エージェントの内発的動機付けによる探索とその応用（第4回統計・機械学習若手シンポジウム招待公演）

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 強化学習エージェントの内発的動機付けによる探索とその応用（第4回統計・機械学習若手シンポジウム招待公演）

Similaire à 強化学習エージェントの内発的動機付けによる探索とその応用（第4回統計・機械学習若手シンポジウム招待公演） (20)