Contenu connexe Similaire à DRL_stydy_1_doc_ohmasa (20) Plus de WEBFARMER. ltd. (20) DRL_stydy_1_doc_ohmasa19. 両者の類似点 ②
min
G
max
D
Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦+ Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
= min
G
max
D
Εw,y ylogD w( )+ 1− y( )log 1− D w( )( )⎡
⎣
⎤
⎦
F D,G( )= −Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦− Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
f D,G( )= −Εz≈Ν 0,1( ) logD G z( )( )⎡
⎣
⎤
⎦
X*
= argmin
x∈ℵ
F X,Y*
X( )( )
Y*
X( )= argmin
Y∈ϒ
f X,Y( )
F Q,π( )= Εst ,at ≈π D Εst +1,rt ,at +1≈π rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
f Q,π( )= −Εs0 ≈p0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
s,a( )= Εst +k≈Ρ,rt+k ≈R,at+k ≈π γk
rt+k
k=1
∞
∑ st = s,at = a
⎡
⎣
⎢
⎤
⎦
⎥
π*
= argmax
π
Εs0 ≈Ρ0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
= argmin
Q
Εst ,at ≈π D Εst+1,rt ,at+1
rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
GANs Actor-critic法
23. 安定化させる技術の適応状況
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung,
Alec Radford, and Xi Chen. Improved techniques for training gans.
arXiv preprint arXiv:1606.03498, 2016.
Label smoothing・・・discriminatorの予測が非常に確からしい時に、
勾配消失を防ぐため 0/1 ラベルを ε/1 – ε とする。
これを強化学習に適応する場合、報酬 0/1 をε/1 – ε としたらよい
のではないか。