DRL_stydy_1_doc_ohmasa

第１回　深層強化学習　最新論文と
その周辺を話し合う会
発表資料
2017/3/13
株式会社ウェブファーマー
大政　孝充

●  名前：大政孝充（おおまさ　たかみつ）
●  株式会社ウェブファーマー　代表
　http://web-farmer.net

●  ディープラーニングのコンサルタント
●  深層強化学習システムの開発
自己紹介

自己紹介
動画　
https://youtu.be/713SFAJUKGQ

論文解説
Connecting Generative Adversarial
Networks and Actor-Critic Methods
Devid Pfau, Oriol Vinyals(Google DeepMind)
arXiv:1610.01945v3 18 Jan 2017

目　次
１.　論文の概要
２.　GANsの復習
３.　Actor-Critic法の復習
４.　GANsとActor-Critic法で何が似てるの？
５.　安定化させる技術の適応状況
６.　まとめ

概要
l  Deep LearningのGANsモデルと強化学習のActor-Critic法は似
てる
l  ともに２つのモデルを有し、これらを同時に学習させるため、最
適化が困難である
l  しかし現状では両者は別々のコミュニティで研究されており、
意思疎通がない
l  よってそれぞれが有する最適化のテクニックを、相手側に適応
すればよいのではないか

GANsの復習　①
生成器
（generator）
実際のdata
識別器
（discriminator）
本物？
偽物？
ノイズ
z ≈ pz z( )
D G z( )( )
G z( )

GANsの復習②　本物のdataの場合の出力
生成器
（generator）
本物のdata
識別器
（discriminator）
ノイズ
min
G
max
D
V D,G( )= Εx≈pdata x( ) logD x( )⎡⎣ ⎤⎦+ Εz≈pz z( ) log 1− D G x( )( )( )⎡
⎣
⎤
⎦
・・・
0.3
0.8
!
0.4
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
x
D x( )

GANsの復習③　偽物のdataの場合の出力
生成器
（generator）
識別器
（discriminator）
ノイズ
・・・
2
0
!
1
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
min
G
max
D
V D,G( )= Εx≈pdata x( ) logD x( )⎡⎣ ⎤⎦+ Εz≈pz z( ) log 1− D G x( )( )( )⎡
⎣
⎤
⎦
G x( ) D G x( )( )
z
0.1
0.2
!
0.1
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
本物のdata
・・・
x

GANsの復習④　識別器を学習する
生成器
（generator）
実際のdata
識別器
（discriminator）
ノイズ
∇θd
1
m
logD xi
( )⎡
⎣
⎤
⎦+ log 1− D G zi
( )( )( )⎡
⎣⎢
⎤
⎦⎥
⎡
⎣⎢
⎤
⎦⎥
i=1
m
∑
⊕

GANsの復習⑤　生成器を学習する
生成器
（generator）
実際のdata
識別器
（discriminator）
ノイズ
∇θg
1
m
log 1− D G zi
( )( )( )⎡
⎣⎢
⎤
⎦⎥
i=1
m
∑
−

Actor-critic法の復習　①
Value
Function
Policy
Critic
Environment
state
reward
Actor
TD
error action

両者の類似点　②
min
G
max
D
Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦+ Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
= min
G
max
D
Εw,y ylogD w( )+ 1− y( )log 1− D w( )( )⎡
⎣
⎤
⎦
F D,G( )= −Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦− Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
f D,G( )= −Εz≈Ν 0,1( ) logD G z( )( )⎡
⎣
⎤
⎦
X*
= argmin
x∈ℵ
F X,Y*
X( )( )
Y*
X( )= argmin
Y∈ϒ
f X,Y( )
F Q,π( )= Εst ,at ≈π D Εst +1,rt ,at +1≈π rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
f Q,π( )= −Εs0 ≈p0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
s,a( )= Εst +k≈Ρ,rt+k ≈R,at+k ≈π γk
rt+k
k=1
∞
∑ st = s,at = a
⎡
⎣
⎢
⎤
⎦
⎥
π*
= argmax
π
Εs0 ≈Ρ0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
= argmin
Q
Εst ,at ≈π D Εst+1,rt ,at+1
rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
GANs Actor-critic法

安定化させる技術の適応状況

安定化させる技術の適応状況
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung,
Alec Radford, and Xi Chen. Improved techniques for training gans.
arXiv preprint arXiv:1606.03498, 2016.
Label smoothing・・・discriminatorの予測が非常に確からしい時に、
勾配消失を防ぐため　0/1　ラベルを　ε/1 – ε　とする。
これを強化学習に適応する場合、報酬 0/1 をε/1 – ε　としたらよい
のではないか。

chainerRLにLabel smoothingを適用
chainerrl/chainerrl/experiments/train_agent_async.py内
def training_loop()関数内
修正前修正後

まとめ
l  Deep LearningのGANsモデルと強化学習のActor-Critic法は
似てる
l  しかし学習を安定化させ、また改良する技術は研究し尽くされ
ていない
l  一方が採用しているものの他方が採用していない技術があれ
ば、それを試してみればいいのではないか

DRL_stydy_1_doc_ohmasa

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à DRL_stydy_1_doc_ohmasa

Similaire à DRL_stydy_1_doc_ohmasa (20)

Plus de WEBFARMER. ltd.

Plus de WEBFARMER. ltd. (20)

Dernier

Dernier (7)

DRL_stydy_1_doc_ohmasa