8. 強化学習
ALE
• ALE 部分観測
決定過程(POMDP)
◦ 観測
画面
現在 状況
•
時間
t
状態 次
◦ st = x1 , a1 , x2 , · · · , at−1 , xt
◦ x 観測
画面,a 入力
行動
→ 有限
手法 使
6 / 14
決定過程
,
定義
強化学習
9. 行動価値関数
• 最大化
:将来 (割引)報酬 Rt =
T
t ′ =t
′
γ t −t rt ′
• 方策 π : S → A
• (最適)行動価値関数
Q ∗ (s, a) = max E [Rt |st = s, at = a, π]
π
有限
決定過程
,
Bellman 方程式 唯一解
Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a]
′
a
7 / 14
10. 行動価値関数 関数近似
• Q(s, a; θ) ≈ Q ∗ (s, a)
,Bellman 方程式 誤差 最小化
Li (θi ) = E [(yi − Q(s, a; θi )2 ]
yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a]
′
a
∇θi Li (θi )
= E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )]
′
a
• 今回
8 / 14
RMSProp
使
逆伝搬