[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)

/23
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Learning Finite State Representations of Recurrent Policy
Networks (ICLR2019)”
Kaito Suzuki,Tohoku Univ

/23
目次
• 書誌情報
• 概要
• 背景
• 提案手法
• 実験
• まとめ
• 感想
2

/23
書誌情報
• タイトル：
Learning Finite State Representations of Recurrent Policy Networks
• 著者：
Anurag Koul1, Alan Fern1, Sam Greydanus2
(Oregon State University1, Google Brain2)
• ICLR2019
• リンク：
・OpenReview： https://openreview.net/forum?id=S1gOpsCctm
・ArXiv： https://arxiv.org/abs/1811.12530
・著者実装 (ポスターへのリンクあり）： https://github.com/koulanurag/mmn
3

/23
概要
• 概要
- 強化学習において, 方策はRNNで実装されることがあるが,
方策を表す学習済みRNNの入力の観測と隠れ状態を離散化することで
状態有限機械（Moore Machine) とみなし, 解釈性の向上を狙った論文
• 貢献
- RNNを状態有限機械に変換する新しい手法Quantum Bottleneck
Network insertion (QBN) を提案
- 提案手法を6つのAtariゲームの学習済み方策に適用し,
RNNの記憶能力の利用法を解析
4

/23
背景
• RNNを方策に用いた強化学習エージェントは, VizDoomやAtariなどで良い
結果を出している (POMDP環境に有効）
• 一方で, RNNの記憶能力を方策がどう活用しているのかは定かでない
5
Playing FPS Games with Deep Reinforcement Learning [Lample+ 2017]

/23
背景
• RNNを状態有限機械に落とし込むことで, 学習済み方策における記憶能力
の活用法や, 対応する環境が要求する記憶能力を解析できると考えられる
（以下は潜在状態の同定タスクの例）
6
現在の観測のみで状態が決まり,
過去の履歴が必要ない例
過去の履歴のみで決定的に状態
が決まり, 観測が意味を持たない
例

/23
背景
• RNNを状態有限機械に変換する取組みは1993年頃からある
- この論文と同じく, 隠れ状態の離散化を行うものが多い
- 近年では質問学習を使ったものが有名
“Extracting Automata from Recurrent Neural Networks
Using Queries and Counterexamples” [Weiss+, 2017]
• 既存の手法はRNNとは独立の状態有限機械を抽出する形をとっている
→ この論文では, RNNにそのまま組み込むことができる
挿入形式の離散化手法を提案
→ 離散化によって低下した性能をfine-tuningによって補える
7

/23
• Moore Machine (MM)
- 状態と出力が紐付いている状態有限機械
- 今回は方策を表現するので,
・状態：方策のRNNの隠れ状態
・入力：観測
・出力：行動
と対応付ける
• Moore Machine Network (MMN)
- Moore Machineにおける状態から出力への写像 𝜋: 𝐻 → 𝐴,
遷移関数 𝛿: 𝐻 × 𝑂 → 𝐻 をDNNで表現したもの
観測には連続を許すので 𝑔: 𝑂 → 𝑂 もDNNで表現する
※ 離散変数, その集合, 離散変数に関わる関数にはをつけて書いています 8
提案手法
ℎ0/ 𝑎0
ℎ1/ 𝑎1ℎ2/ 𝑎0
𝑜0
𝑜0
𝑜1
𝑜1
𝑜0
𝑜1

/23
• RNNにおける演算を分割して整理
- 𝑂: 𝑓𝑡 = 𝑔 𝑜𝑡 : 特徴抽出器. 観測𝑜𝑡からCNNなどで特徴量𝑓𝑡を抽出する
- 𝑅: ℎ 𝑡+1 = 𝛿(𝑓𝑡, ℎ 𝑡) : RNN本体. 観測を受け取って隠れ状態を更新する
- 𝜋: 𝑎 𝑡 = 𝜋(ℎ 𝑡) : 行動への写像. 隠れ状態から行動を出力する
9
提案手法
𝑂 𝑅 𝜋𝑜𝑡
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿(𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡

/23
• Quantized Bottleneck Network insertion (QBN)
- 下の図のように, 分割したRNNの演算に2つの潜在空間を離散化した
オートエンコーダ𝑏𝑓, 𝑏ℎを挿入する
10
提案手法
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡
𝑓𝑡𝒇 𝒕
𝐸𝑓 𝐷𝑓
ℎ 𝑡
𝒉 𝒕
𝐸ℎ 𝐷ℎ
𝑏ℎ
𝑏𝑓

/23
• Quantized Bottleneck Network insertion (QBN)
- 𝑜𝑡 = 𝑓𝑡としてみると, 先ほどのMMNの構成要素と
𝑔: 𝑂 → 𝑂, 𝛿: 𝐻 × 𝑂 → 𝐻, 𝜋: 𝐻 → 𝐴 のように対応付けられる
11
提案手法
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡
𝑓𝑡𝒇 𝒕
( 𝒐 𝒕)
𝐸𝑓 𝐷𝑓
ℎ 𝑡
𝒉 𝒕
𝐸ℎ 𝐷ℎ

/23
• オートエンコーダの潜在空間の離散化は3段階で, シンプルに[-1, 0, +1]で
近いものに丸める
• 0付近での離散化をサポートするために, 潜在空間直前の活性化関数に
1.5 tanh 𝑥 + 0.5tanh(−3𝑥) を用いる
• 勾配はSTL (Straight-Through Estimator) で近似
• ロスは通常の再構成誤差 12
提案手法

/23
• 全体の学習プロセスは3段階
① RNNの学習
② 2つのQBNの学習
③ 2つのQBNをRNNに挿入してMMNにし, 必要があればfine-tuning
- fine-tuningでは, 元のRNNの出力のsoftmaxを教師として全体を学習
13
提案手法

/23
• 学習の終了後, MMNに対して通常の状態有限機械最小化のためのアルゴ
リズム [Paull & Unger, 1959] を適用し, 隠れ状態数（ノード）の最小化を行う
• 同時に, 同じノードの間を繋いでいるだけの観測（エッジ）をまとめ, 数を少な
くする
• これが非常に有効で, MMNによっては隠れ状態数, 観測数を2桁減らすこと
に成功している
14
提案手法

/23
実験
• まずは真の状態有限機械が既知な2つの課題を用いて提案手法を検証
• Mode Counter Environment
- 直接は観測されない環境の潜在状態を推定し, それと同じ行動を選択し
続ければ正の報酬が貰える環境
- 即ち, 最適方策を表す状態有限機械と環境の状態有限機械は一致する
- 適切に行動を選択するために記憶しなければならない履歴の長さを
制御できる
• Tomita Grammars:
- 形式言語の学習, RNNからの状態有限機械の抽出で典型的なタスク
• 本発表では時間の都合上前者についての実験のみ話します 15

/23
実験
• Mode Counter Environment: 今回用いたのは以下の3種類
16
(a) Amnesia: 履歴が不必要.
現在の観測のみで潜在状態が決まる
(b) Blind: 観測が無意味.
過去の履歴のみで決定的に潜在状態が
決まる
(c) Tracker: 観測と履歴の両方を活用する必要がある

/23
実験
• 離散化した潜在空間の次元𝐵ℎ, 𝐵𝑓を変えて実験
• RNN, MMNともにテストデータでほぼAccuracy100％を達成できた
• 隠れ状態数と観測数の最小化実行後, ほとんどの場合で真の状態有限機
械と一致するものが獲得できた
17

/23
実験
• 6つのAtariゲームに適用して提案手法を検証
• 方策RNNはA3C [Minh+, 2016] + GAE (Generalized Advantage Estimator)
[Schulman+, 2015]で学習
• 学習データの多様性確保のため, QBNは一定確率でランダム行動を加えた
方策を環境でロールアウトして得られるℎ 𝑡, 𝑓𝑡で学習
• 潜在空間の次元𝐵𝑓, 𝐵ℎを非常に大きくしており, 原理的には3 𝐵 𝑓, 3 𝐵ℎ個の離
散的隠れ状態と観測が出現しうるが, 実際出てこなかったものはカウントし
ていないことに注意
18

/23
実験
• Pong, Freeway, Bowling,
BoxingではMMNのスコアは
元のRNNのスコアを維持
• Breakout, Space Invaders
ではスコアは落ちたが,
fine-tuningの効果が大きく,
ある程度はスコアを保てて
いる
• 隠れ状態/観測数最小化の
効果が非常に大きく, 隠れ
状態や観測の数が1になっ
ているものまである
19

/23
実験
• 記憶能力の利用法を解析
• Pong
- 3行動, 10観測のMoore Machine
- 全ての観測は, 現在の隠れ状態に関わらず同じ隠れ状態に遷移する
- 過去の履歴が不必要で, 現在の観測のみで行動が決まる.
MCEのAmnesiaと同じ
20

/23
実験
• 記憶能力の利用法を解析
• Bowling
- 24行動, 1観測のMoore Machine
- 観測を無視し, 履歴に従ったopen-loop制御だけで解いている
- 現在の観測が無意味で, 過去履歴のみで決定的に行動が決まる.
MCEのBlindと同じ
21

/23
まとめ
• RNNを状態有限機械に変換する新しい手法として, RNN内部に挿入でき
fine-tuningが可能なQuantum Bottleneck Network insertion (QBN) を提案
• 真の状態有限機械が既知な2つのタスクで有効性を確認
• Atariゲームの方策に適用し, fine-tuningによって性能の低下をかなり抑え
られること, 学習後の隠れ状態/観測数最小化によって大きく隠れ状態数/
観測数を落とせることを確認
• Pong, Boxing等幾つかのAtariゲームの方策について, 過去の履歴に意味
がなく, 現在の観測のみを使っている場合や, 現在の観測に意味がなく, 過
去の履歴のみを使っている場合など, RNNの記憶領域の利用法を定性的
に解析
22

/23
感想
• 解釈性というと曖昧な概念の話になりがちだが, 結構はっきりとどのように
解釈できるようになったのか述べていて良かった
• 状態有限機械の最小化は一切性能に影響を与えないので, これが大きく効
果があるのはとても面白いと思う
• WaveRNN [Kalchbrenner+, 2018], World Models [Ha+, 2018]など, RNNの記
憶能力をどう活用しているのか気になるRNNは多いので, 方策以外にも適
用のしどころがありそう (が, 自己回帰モデルとして用いられるRNNは自身
の出力も入力に入れるので, 単純なMoore Machine Networkにはならない
かもしれない）
23

[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)

Similaire à [DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019) (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)