SlideShare une entreprise Scribd logo
1  sur  23
/23
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Learning Finite State Representations of Recurrent Policy
Networks (ICLR2019)”
Kaito Suzuki,Tohoku Univ
/23
目次
• 書誌情報
• 概要
• 背景
• 提案手法
• 実験
• まとめ
• 感想
2
/23
書誌情報
• タイトル:
Learning Finite State Representations of Recurrent Policy Networks
• 著者:
Anurag Koul1, Alan Fern1, Sam Greydanus2
(Oregon State University1, Google Brain2)
• ICLR2019
• リンク:
・OpenReview: https://openreview.net/forum?id=S1gOpsCctm
・ArXiv: https://arxiv.org/abs/1811.12530
・著者実装 (ポスターへのリンクあり): https://github.com/koulanurag/mmn
3
/23
概要
• 概要
- 強化学習において, 方策はRNNで実装されることがあるが,
方策を表す学習済みRNNの入力の観測と隠れ状態を離散化することで
状態有限機械(Moore Machine) とみなし, 解釈性の向上を狙った論文
• 貢献
- RNNを状態有限機械に変換する新しい手法Quantum Bottleneck
Network insertion (QBN) を提案
- 提案手法を6つのAtariゲームの学習済み方策に適用し,
RNNの記憶能力の利用法を解析
4
/23
背景
• RNNを方策に用いた強化学習エージェントは, VizDoomやAtariなどで良い
結果を出している (POMDP環境に有効)
• 一方で, RNNの記憶能力を方策がどう活用しているのかは定かでない
5
Playing FPS Games with Deep Reinforcement Learning [Lample+ 2017]
/23
背景
• RNNを状態有限機械に落とし込むことで, 学習済み方策における記憶能力
の活用法や, 対応する環境が要求する記憶能力を解析できると考えられる
(以下は潜在状態の同定タスクの例)
6
現在の観測のみで状態が決まり,
過去の履歴が必要ない例
過去の履歴のみで決定的に状態
が決まり, 観測が意味を持たない
例
/23
背景
• RNNを状態有限機械に変換する取組みは1993年頃からある
- この論文と同じく, 隠れ状態の離散化を行うものが多い
- 近年では質問学習を使ったものが有名
“Extracting Automata from Recurrent Neural Networks
Using Queries and Counterexamples” [Weiss+, 2017]
• 既存の手法はRNNとは独立の状態有限機械を抽出する形をとっている
→ この論文では, RNNにそのまま組み込むことができる
挿入形式の離散化手法を提案
→ 離散化によって低下した性能をfine-tuningによって補える
7
/23
• Moore Machine (MM)
- 状態と出力が紐付いている状態有限機械
- 今回は方策を表現するので,
・状態:方策のRNNの隠れ状態
・入力:観測
・出力:行動
と対応付ける
• Moore Machine Network (MMN)
- Moore Machineにおける状態から出力への写像 𝜋: 𝐻 → 𝐴,
遷移関数 𝛿: 𝐻 × 𝑂 → 𝐻 をDNNで表現したもの
観測には連続を許すので 𝑔: 𝑂 → 𝑂 もDNNで表現する
※ 離散変数, その集合, 離散変数に関わる関数には をつけて書いています 8
提案手法
ℎ0/ 𝑎0
ℎ1/ 𝑎1ℎ2/ 𝑎0
𝑜0
𝑜0
𝑜1
𝑜1
𝑜0
𝑜1
/23
• RNNにおける演算を分割して整理
- 𝑂: 𝑓𝑡 = 𝑔 𝑜𝑡 : 特徴抽出器. 観測𝑜𝑡からCNNなどで特徴量𝑓𝑡を抽出する
- 𝑅: ℎ 𝑡+1 = 𝛿(𝑓𝑡, ℎ 𝑡) : RNN本体. 観測を受け取って隠れ状態を更新する
- 𝜋: 𝑎 𝑡 = 𝜋(ℎ 𝑡) : 行動への写像. 隠れ状態から行動を出力する
9
提案手法
𝑂 𝑅 𝜋𝑜𝑡
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿(𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡
/23
• Quantized Bottleneck Network insertion (QBN)
- 下の図のように, 分割したRNNの演算に2つの潜在空間を離散化した
オートエンコーダ𝑏𝑓, 𝑏ℎを挿入する
10
提案手法
𝑂 𝑅 𝜋𝑜𝑡
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡
𝑓𝑡𝒇 𝒕
𝐸𝑓 𝐷𝑓
ℎ 𝑡
𝒉 𝒕
𝐸ℎ 𝐷ℎ
𝑏ℎ
𝑏𝑓
/23
• Quantized Bottleneck Network insertion (QBN)
- 𝑜𝑡 = 𝑓𝑡としてみると, 先ほどのMMNの構成要素と
𝑔: 𝑂 → 𝑂, 𝛿: 𝐻 × 𝑂 → 𝐻, 𝜋: 𝐻 → 𝐴 のように対応付けられる
11
提案手法
𝑂 𝑅 𝜋𝑜𝑡
𝑓𝑡 ℎ 𝑡
𝑎 𝑡
𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡)
ℎ 𝑡
𝑓𝑡𝒇 𝒕
( 𝒐 𝒕)
𝐸𝑓 𝐷𝑓
ℎ 𝑡
𝒉 𝒕
𝐸ℎ 𝐷ℎ
/23
• オートエンコーダの潜在空間の離散化は3段階で, シンプルに[-1, 0, +1]で
近いものに丸める
• 0付近での離散化をサポートするために, 潜在空間直前の活性化関数に
1.5 tanh 𝑥 + 0.5tanh(−3𝑥) を用いる
• 勾配はSTL (Straight-Through Estimator) で近似
• ロスは通常の再構成誤差 12
提案手法
/23
• 全体の学習プロセスは3段階
① RNNの学習
② 2つのQBNの学習
③ 2つのQBNをRNNに挿入してMMNにし, 必要があればfine-tuning
- fine-tuningでは, 元のRNNの出力のsoftmaxを教師として全体を学習
13
提案手法
/23
• 学習の終了後, MMNに対して通常の状態有限機械最小化のためのアルゴ
リズム [Paull & Unger, 1959] を適用し, 隠れ状態数(ノード)の最小化を行う
• 同時に, 同じノードの間を繋いでいるだけの観測(エッジ)をまとめ, 数を少な
くする
• これが非常に有効で, MMNによっては隠れ状態数, 観測数を2桁減らすこと
に成功している
14
提案手法
/23
実験
• まずは真の状態有限機械が既知な2つの課題を用いて提案手法を検証
• Mode Counter Environment
- 直接は観測されない環境の潜在状態を推定し, それと同じ行動を選択し
続ければ正の報酬が貰える環境
- 即ち, 最適方策を表す状態有限機械と環境の状態有限機械は一致する
- 適切に行動を選択するために記憶しなければならない履歴の長さを
制御できる
• Tomita Grammars:
- 形式言語の学習, RNNからの状態有限機械の抽出で典型的なタスク
• 本発表では時間の都合上前者についての実験のみ話します 15
/23
実験
• Mode Counter Environment: 今回用いたのは以下の3種類
16
(a) Amnesia: 履歴が不必要.
現在の観測のみで潜在状態が決まる
(b) Blind: 観測が無意味.
過去の履歴のみで決定的に潜在状態が
決まる
(c) Tracker: 観測と履歴の両方を活用する必要がある
/23
実験
• 離散化した潜在空間の次元𝐵ℎ, 𝐵𝑓を変えて実験
• RNN, MMNともにテストデータでほぼAccuracy100%を達成できた
• 隠れ状態数と観測数の最小化実行後, ほとんどの場合で真の状態有限機
械と一致するものが獲得できた
17
/23
実験
• 6つのAtariゲームに適用して提案手法を検証
• 方策RNNはA3C [Minh+, 2016] + GAE (Generalized Advantage Estimator)
[Schulman+, 2015]で学習
• 学習データの多様性確保のため, QBNは一定確率でランダム行動を加えた
方策を環境でロールアウトして得られるℎ 𝑡, 𝑓𝑡で学習
• 潜在空間の次元𝐵𝑓, 𝐵ℎを非常に大きくしており, 原理的には3 𝐵 𝑓, 3 𝐵ℎ個の離
散的隠れ状態と観測が出現しうるが, 実際出てこなかったものはカウントし
ていないことに注意
18
/23
実験
• Pong, Freeway, Bowling,
BoxingではMMNのスコアは
元のRNNのスコアを維持
• Breakout, Space Invaders
ではスコアは落ちたが,
fine-tuningの効果が大きく,
ある程度はスコアを保てて
いる
• 隠れ状態/観測数最小化の
効果が非常に大きく, 隠れ
状態や観測の数が1になっ
ているものまである
19
/23
実験
• 記憶能力の利用法を解析
• Pong
- 3行動, 10観測のMoore Machine
- 全ての観測は, 現在の隠れ状態に関わらず同じ隠れ状態に遷移する
- 過去の履歴が不必要で, 現在の観測のみで行動が決まる.
MCEのAmnesiaと同じ
20
/23
実験
• 記憶能力の利用法を解析
• Bowling
- 24行動, 1観測のMoore Machine
- 観測を無視し, 履歴に従ったopen-loop制御だけで解いている
- 現在の観測が無意味で, 過去履歴のみで決定的に行動が決まる.
MCEのBlindと同じ
21
/23
まとめ
• RNNを状態有限機械に変換する新しい手法として, RNN内部に挿入でき
fine-tuningが可能なQuantum Bottleneck Network insertion (QBN) を提案
• 真の状態有限機械が既知な2つのタスクで有効性を確認
• Atariゲームの方策に適用し, fine-tuningによって性能の低下をかなり抑え
られること, 学習後の隠れ状態/観測数最小化によって大きく隠れ状態数/
観測数を落とせることを確認
• Pong, Boxing等幾つかのAtariゲームの方策について, 過去の履歴に意味
がなく, 現在の観測のみを使っている場合や, 現在の観測に意味がなく, 過
去の履歴のみを使っている場合など, RNNの記憶領域の利用法を定性的
に解析
22
/23
感想
• 解釈性というと曖昧な概念の話になりがちだが, 結構はっきりとどのように
解釈できるようになったのか述べていて良かった
• 状態有限機械の最小化は一切性能に影響を与えないので, これが大きく効
果があるのはとても面白いと思う
• WaveRNN [Kalchbrenner+, 2018], World Models [Ha+, 2018]など, RNNの記
憶能力をどう活用しているのか気になるRNNは多いので, 方策以外にも適
用のしどころがありそう (が, 自己回帰モデルとして用いられるRNNは自身
の出力も入力に入れるので, 単純なMoore Machine Networkにはならない
かもしれない)
23

Contenu connexe

Tendances

Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMCKenta Oono
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点Taiji Suzuki
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法Takuya Akiba
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用Deep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 Kenta Oono
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズムTakuya Akiba
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習Yusuke Iwasawa
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...Deep Learning JP
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習Takashi Kitano
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 

Tendances (20)

Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMC
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Holonomic Gradient Descent
Holonomic Gradient DescentHolonomic Gradient Descent
Holonomic Gradient Descent
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 

Similaire à [DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)

PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolutioncvpaper. challenge
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」Naonori Nagano
 
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...mmisono
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...Deep Learning JP
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
 
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...SaeruYamamuro
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3CTomoya Oda
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習Masayuki Tanaka
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...Kotaro Yamazaki
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Hokuto Kagaya
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定Masaaki Imaizumi
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routingKazuki Fujikawa
 

Similaire à [DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019) (20)

PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...
論文輪読: Data-Dependent Initializations of Convolutional Neural Networks / All Y...
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routing
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)

  • 1. /23 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Learning Finite State Representations of Recurrent Policy Networks (ICLR2019)” Kaito Suzuki,Tohoku Univ
  • 2. /23 目次 • 書誌情報 • 概要 • 背景 • 提案手法 • 実験 • まとめ • 感想 2
  • 3. /23 書誌情報 • タイトル: Learning Finite State Representations of Recurrent Policy Networks • 著者: Anurag Koul1, Alan Fern1, Sam Greydanus2 (Oregon State University1, Google Brain2) • ICLR2019 • リンク: ・OpenReview: https://openreview.net/forum?id=S1gOpsCctm ・ArXiv: https://arxiv.org/abs/1811.12530 ・著者実装 (ポスターへのリンクあり): https://github.com/koulanurag/mmn 3
  • 4. /23 概要 • 概要 - 強化学習において, 方策はRNNで実装されることがあるが, 方策を表す学習済みRNNの入力の観測と隠れ状態を離散化することで 状態有限機械(Moore Machine) とみなし, 解釈性の向上を狙った論文 • 貢献 - RNNを状態有限機械に変換する新しい手法Quantum Bottleneck Network insertion (QBN) を提案 - 提案手法を6つのAtariゲームの学習済み方策に適用し, RNNの記憶能力の利用法を解析 4
  • 5. /23 背景 • RNNを方策に用いた強化学習エージェントは, VizDoomやAtariなどで良い 結果を出している (POMDP環境に有効) • 一方で, RNNの記憶能力を方策がどう活用しているのかは定かでない 5 Playing FPS Games with Deep Reinforcement Learning [Lample+ 2017]
  • 6. /23 背景 • RNNを状態有限機械に落とし込むことで, 学習済み方策における記憶能力 の活用法や, 対応する環境が要求する記憶能力を解析できると考えられる (以下は潜在状態の同定タスクの例) 6 現在の観測のみで状態が決まり, 過去の履歴が必要ない例 過去の履歴のみで決定的に状態 が決まり, 観測が意味を持たない 例
  • 7. /23 背景 • RNNを状態有限機械に変換する取組みは1993年頃からある - この論文と同じく, 隠れ状態の離散化を行うものが多い - 近年では質問学習を使ったものが有名 “Extracting Automata from Recurrent Neural Networks Using Queries and Counterexamples” [Weiss+, 2017] • 既存の手法はRNNとは独立の状態有限機械を抽出する形をとっている → この論文では, RNNにそのまま組み込むことができる 挿入形式の離散化手法を提案 → 離散化によって低下した性能をfine-tuningによって補える 7
  • 8. /23 • Moore Machine (MM) - 状態と出力が紐付いている状態有限機械 - 今回は方策を表現するので, ・状態:方策のRNNの隠れ状態 ・入力:観測 ・出力:行動 と対応付ける • Moore Machine Network (MMN) - Moore Machineにおける状態から出力への写像 𝜋: 𝐻 → 𝐴, 遷移関数 𝛿: 𝐻 × 𝑂 → 𝐻 をDNNで表現したもの 観測には連続を許すので 𝑔: 𝑂 → 𝑂 もDNNで表現する ※ 離散変数, その集合, 離散変数に関わる関数には をつけて書いています 8 提案手法 ℎ0/ 𝑎0 ℎ1/ 𝑎1ℎ2/ 𝑎0 𝑜0 𝑜0 𝑜1 𝑜1 𝑜0 𝑜1
  • 9. /23 • RNNにおける演算を分割して整理 - 𝑂: 𝑓𝑡 = 𝑔 𝑜𝑡 : 特徴抽出器. 観測𝑜𝑡からCNNなどで特徴量𝑓𝑡を抽出する - 𝑅: ℎ 𝑡+1 = 𝛿(𝑓𝑡, ℎ 𝑡) : RNN本体. 観測を受け取って隠れ状態を更新する - 𝜋: 𝑎 𝑡 = 𝜋(ℎ 𝑡) : 行動への写像. 隠れ状態から行動を出力する 9 提案手法 𝑂 𝑅 𝜋𝑜𝑡 𝑓𝑡 ℎ 𝑡 𝑎 𝑡 𝑔 𝑜𝑡 𝛿(𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡) ℎ 𝑡
  • 10. /23 • Quantized Bottleneck Network insertion (QBN) - 下の図のように, 分割したRNNの演算に2つの潜在空間を離散化した オートエンコーダ𝑏𝑓, 𝑏ℎを挿入する 10 提案手法 𝑂 𝑅 𝜋𝑜𝑡 𝑓𝑡 ℎ 𝑡 𝑎 𝑡 𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡) ℎ 𝑡 𝑓𝑡𝒇 𝒕 𝐸𝑓 𝐷𝑓 ℎ 𝑡 𝒉 𝒕 𝐸ℎ 𝐷ℎ 𝑏ℎ 𝑏𝑓
  • 11. /23 • Quantized Bottleneck Network insertion (QBN) - 𝑜𝑡 = 𝑓𝑡としてみると, 先ほどのMMNの構成要素と 𝑔: 𝑂 → 𝑂, 𝛿: 𝐻 × 𝑂 → 𝐻, 𝜋: 𝐻 → 𝐴 のように対応付けられる 11 提案手法 𝑂 𝑅 𝜋𝑜𝑡 𝑓𝑡 ℎ 𝑡 𝑎 𝑡 𝑔 𝑜𝑡 𝛿( 𝑓𝑡, ℎ 𝑡) 𝜋(ℎ 𝑡) ℎ 𝑡 𝑓𝑡𝒇 𝒕 ( 𝒐 𝒕) 𝐸𝑓 𝐷𝑓 ℎ 𝑡 𝒉 𝒕 𝐸ℎ 𝐷ℎ
  • 12. /23 • オートエンコーダの潜在空間の離散化は3段階で, シンプルに[-1, 0, +1]で 近いものに丸める • 0付近での離散化をサポートするために, 潜在空間直前の活性化関数に 1.5 tanh 𝑥 + 0.5tanh(−3𝑥) を用いる • 勾配はSTL (Straight-Through Estimator) で近似 • ロスは通常の再構成誤差 12 提案手法
  • 13. /23 • 全体の学習プロセスは3段階 ① RNNの学習 ② 2つのQBNの学習 ③ 2つのQBNをRNNに挿入してMMNにし, 必要があればfine-tuning - fine-tuningでは, 元のRNNの出力のsoftmaxを教師として全体を学習 13 提案手法
  • 14. /23 • 学習の終了後, MMNに対して通常の状態有限機械最小化のためのアルゴ リズム [Paull & Unger, 1959] を適用し, 隠れ状態数(ノード)の最小化を行う • 同時に, 同じノードの間を繋いでいるだけの観測(エッジ)をまとめ, 数を少な くする • これが非常に有効で, MMNによっては隠れ状態数, 観測数を2桁減らすこと に成功している 14 提案手法
  • 15. /23 実験 • まずは真の状態有限機械が既知な2つの課題を用いて提案手法を検証 • Mode Counter Environment - 直接は観測されない環境の潜在状態を推定し, それと同じ行動を選択し 続ければ正の報酬が貰える環境 - 即ち, 最適方策を表す状態有限機械と環境の状態有限機械は一致する - 適切に行動を選択するために記憶しなければならない履歴の長さを 制御できる • Tomita Grammars: - 形式言語の学習, RNNからの状態有限機械の抽出で典型的なタスク • 本発表では時間の都合上前者についての実験のみ話します 15
  • 16. /23 実験 • Mode Counter Environment: 今回用いたのは以下の3種類 16 (a) Amnesia: 履歴が不必要. 現在の観測のみで潜在状態が決まる (b) Blind: 観測が無意味. 過去の履歴のみで決定的に潜在状態が 決まる (c) Tracker: 観測と履歴の両方を活用する必要がある
  • 17. /23 実験 • 離散化した潜在空間の次元𝐵ℎ, 𝐵𝑓を変えて実験 • RNN, MMNともにテストデータでほぼAccuracy100%を達成できた • 隠れ状態数と観測数の最小化実行後, ほとんどの場合で真の状態有限機 械と一致するものが獲得できた 17
  • 18. /23 実験 • 6つのAtariゲームに適用して提案手法を検証 • 方策RNNはA3C [Minh+, 2016] + GAE (Generalized Advantage Estimator) [Schulman+, 2015]で学習 • 学習データの多様性確保のため, QBNは一定確率でランダム行動を加えた 方策を環境でロールアウトして得られるℎ 𝑡, 𝑓𝑡で学習 • 潜在空間の次元𝐵𝑓, 𝐵ℎを非常に大きくしており, 原理的には3 𝐵 𝑓, 3 𝐵ℎ個の離 散的隠れ状態と観測が出現しうるが, 実際出てこなかったものはカウントし ていないことに注意 18
  • 19. /23 実験 • Pong, Freeway, Bowling, BoxingではMMNのスコアは 元のRNNのスコアを維持 • Breakout, Space Invaders ではスコアは落ちたが, fine-tuningの効果が大きく, ある程度はスコアを保てて いる • 隠れ状態/観測数最小化の 効果が非常に大きく, 隠れ 状態や観測の数が1になっ ているものまである 19
  • 20. /23 実験 • 記憶能力の利用法を解析 • Pong - 3行動, 10観測のMoore Machine - 全ての観測は, 現在の隠れ状態に関わらず同じ隠れ状態に遷移する - 過去の履歴が不必要で, 現在の観測のみで行動が決まる. MCEのAmnesiaと同じ 20
  • 21. /23 実験 • 記憶能力の利用法を解析 • Bowling - 24行動, 1観測のMoore Machine - 観測を無視し, 履歴に従ったopen-loop制御だけで解いている - 現在の観測が無意味で, 過去履歴のみで決定的に行動が決まる. MCEのBlindと同じ 21
  • 22. /23 まとめ • RNNを状態有限機械に変換する新しい手法として, RNN内部に挿入でき fine-tuningが可能なQuantum Bottleneck Network insertion (QBN) を提案 • 真の状態有限機械が既知な2つのタスクで有効性を確認 • Atariゲームの方策に適用し, fine-tuningによって性能の低下をかなり抑え られること, 学習後の隠れ状態/観測数最小化によって大きく隠れ状態数/ 観測数を落とせることを確認 • Pong, Boxing等幾つかのAtariゲームの方策について, 過去の履歴に意味 がなく, 現在の観測のみを使っている場合や, 現在の観測に意味がなく, 過 去の履歴のみを使っている場合など, RNNの記憶領域の利用法を定性的 に解析 22
  • 23. /23 感想 • 解釈性というと曖昧な概念の話になりがちだが, 結構はっきりとどのように 解釈できるようになったのか述べていて良かった • 状態有限機械の最小化は一切性能に影響を与えないので, これが大きく効 果があるのはとても面白いと思う • WaveRNN [Kalchbrenner+, 2018], World Models [Ha+, 2018]など, RNNの記 憶能力をどう活用しているのか気になるRNNは多いので, 方策以外にも適 用のしどころがありそう (が, 自己回帰モデルとして用いられるRNNは自身 の出力も入力に入れるので, 単純なMoore Machine Networkにはならない かもしれない) 23