Contenu connexe Plus de Yen-lung Tsai (19) 強化學習 Reinforcement Learning4. 4
2015 年 Nature 出現⼀篇 「Human-level Control
Through Deep Reinforcement learning」 為題的論
⽂, 基本上就是教電腦玩 Atari 的遊戲。
Deep Reinforcement
Learning
31. 31
0 1 2 3 4 5
0 -1 -1 -1 -1 0 -1
1 -1 -1 -1 0 -1 100
2 -1 -1 -1 0 -1 -1
3 -1 0 0 -1 0 -1
4 0 -1 -1 0 -1 100
5 -1 0 -1 -1 0 100
動作
State
Reward Matrix
33. 33
π(S) = arg maxaQ(S, a)
Q 函數
記得 Q 函數找到了,我們在每個狀態都很
容易可以決定最好的動作!
34. 34
0 1 2 3 4 5
0 0 0 0 0 0 0
1 0 0 0 0 0 0
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
動作
State
Q Matrix
狀況沒幾個, 很容易⽤矩陣表⽰, ⼀開始全設為 0
36. 36
Q(St, at) = r(St, at) + γ max
a
Q(St+1, a)
Q 的更新公式, γ 是我們⾃⼰設的, 這裡設為 0.8。
Q Matrix
37. 37
0 1 2 3 4 5
0 0 0 0 0 0 0
1 0 0 0 0 0 100
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
Q Matrix
假設從狀態 1 開始, 例如我們選擇動作是往 5 號⾛。
1
3 5
100
100
0
0 0
Episode 1
Q(1, 5) = r(1, 5) + γ · max(Q(5, 1), Q(5, 4), Q(5, 5))
100 0.8 0 0 0
41. 41
0 1 2 3 4 5
0 0 0 0 0 0 0
1 0 0 0 0 0 100
2 0 0 0 0 0 0
3 0 80 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
Q Matrix
假設從狀態 3 開始, 例如我們
選擇動作是往 1 號⾛。
Episode 2
100
0
00
1
3
4
5
100
100
100
0
0 0
0 0
0
42. 42
0 1 2 3 4 5
0 0 0 0 0 0 0
1 0 0 0 0 0 100
2 0 0 0 0 0 0
3 0 80 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
Q Matrix
0
1
3
4
5
100
100
100
0
0 0
0 0
0
43. 43
0 1 2 3 4 5
0 0 0 0 0 400 0
1 0 0 0 320 0 500
2 0 0 0 320 0 0
3 0 400 256 0 400 0
4 320 0 0 320 0 500
5 0 400 0 0 400 500
Q Matrix
0
1
3
4
5
100
100
100
0
0 0
0 0
0
63. 63
CDQN 無腦法 CDQN 無腦法
ETF1 17.71% 10.89% ETF11 10.76% 5.26%
ETF2 16.53% 12.6% ETF12 10.19% 13.17%
ETF3 16.3% 0.35% ETF13 7.8% 1.42%
ETF4 14.4% 13.25% ETF14 6.23% 3.56%
ETF5 14.3% 12.7% ETF15 5.73% 4.61%
ETF6 13.91% 13.37% ETF16 3.78% -12.76%
ETF7 13.17% 10.52% ETF17 2.85% 5.83%
ETF8 12.35% 17.07% ETF18 1.59% -4.45%
ETF9 11.68% 10.81% ETF19 1.07% -18.09%
ETF10 11.09% 8.14% ETF20 -0.59% -0.75%
交易結果