"Playing Atari with Deep Reinforcement Learning"

“Playing Atari with Deep Reinforcement Learning”

藤田康博

January 23, 2014

自己紹介

• 名前：藤田康博
• 修士 1 年

AI，強化学習
• NIPS 読会初参加
•

◦

2 / 14

手柔

願

読

論文

• Playing Atari with Deep Reinforcement Learning
◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex
Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
NIPS Deep Learning Workshop, 2013.
•

本会議

…

• 選
理由
◦
+深層学習+強化学習
◦ 深層学習+強化学習少
◦ 結果

3 / 14

（

）初

要旨
• 深層学習+強化学習（Deep Q-Learning）
◦ 行動価値関数 Q(s, a) 畳込
現（Deep Q-Network）
• Atari 2600

4 / 14

7

評価

表

要旨
• Atari 2600

7

→（既存研究
存研究勝利！

4 / 14

表

評価

背景削除

）6/7

既

要旨
• Atari 2600

7

評価

→（既存研究
背景削除
存研究勝利！
→
3/7 Expert Human Player
4 / 14

表

）6/7
勝利！優秀！

既

Arcade Learning Environment
+学習用

• Atari 2600
•

観測

画面

◦ 210 × 160 & 128 colors

• 現在

• 終了判定

• http://www.arcadelearningenvironment.org/

5 / 14

強化学習

ALE

• ALE 部分観測
決定過程（POMDP）
◦ 観測
画面
現在状況
•
時間
t
状態次
◦ st = x1 , a1 , x2 , · · · , at−1 , xt
◦ x 観測
画面，a 入力
行動

→ 有限
手法使

6 / 14

決定過程

，

定義

強化学習

行動価値関数
• 最大化

：将来（割引）報酬 Rt =

T
t ′ =t

′

γ t −t rt ′

• 方策 π : S → A

• （最適）行動価値関数

Q ∗ (s, a) = max E [Rt |st = s, at = a, π]
π

有限

決定過程

，

Bellman 方程式唯一解

Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a]
′
a

7 / 14

行動価値関数関数近似
• Q(s, a; θ) ≈ Q ∗ (s, a)

，Bellman 方程式誤差最小化

Li (θi ) = E [(yi − Q(s, a; θi )2 ]
yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a]
′
a

∇θi Li (θi )
= E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )]
′
a

• 今回
8 / 14

RMSProp

使

逆伝搬

Rprop
• 勾配大
見符号
見重
更新
逆伝搬法
•
更新量
決
？
◦ 符号 2 連続同
更新量増
e.g. 1.2 倍
◦
減
e.g. 0.5 倍
• 利点
◦ 勾配小
場所（plateau）
速
脱出
• 欠点
◦
学習
e.g. 9 個
勾配 +0.1，10 個目 −0.9 場合
9 / 14

RMSProp

• Rprop
◦ 勾配大

学習

使

2 乗移動平均 MeanSquare(w , t)

保持

MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1(
◦ 勾配
MeanSquare(w , t) 割
◦
論文
，Coursera
•

10 / 14

講義

“Neural Networks for Machine Learning”

Lecture 6.5

∂E
(t))2
∂w

Experience Replay

• 過去

遷移 (st , at , rt , st+1 )

•

• 利点
◦

11 / 14

振舞
過去
振動・発散

replay memory 保存
遷移対
誤差最小化

防

平均化
効果

，

Deep Q-Network
1st hidden
layer

input

• 入力：

• 出力：各
12 / 14

fully
connected

4x4x16 filter
stride 2

20x20x16

4

3rd hidden
output
layer

fully
connected

8x8x4 filter
stride 4

84x84x4

2nd hidden
layer

9x9x32

画面（縮小
行動価値

256

4~18

化）

結果

• 人間勝利：Breakout，Pong，Enduro
• 人間全敵
：Q*bert, Seaquest，Space Invaders
◦ 比較的長期的戦略必要
13 / 14

感想

•

• 他
◦
◦

14 / 14

AI
使
先読
使

波来
…
？ e.g. 将棋，囲碁，StarCraft，etc.
重要

難
使

"Playing Atari with Deep Reinforcement Learning"

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à "Playing Atari with Deep Reinforcement Learning"

Similaire à "Playing Atari with Deep Reinforcement Learning" (6)

Plus de mooopan

Plus de mooopan (9)

Dernier

Dernier (11)

"Playing Atari with Deep Reinforcement Learning"