SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
“Playing Atari with Deep Reinforcement Learning”

藤田康博

January 23, 2014
自己紹介

• 名前:藤田康博
• 修士 1 年

AI,強化学習
• NIPS 読 会初参加
•

◦

2 / 14

手柔

願
読

論文

• Playing Atari with Deep Reinforcement Learning
◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex
Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
NIPS Deep Learning Workshop, 2013.
•

本会議

…

• 選
理由
◦
+深層学習+強化学習
◦ 深層学習+強化学習 少
◦ 結果

3 / 14

(

)初
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

4 / 14

7

評価

表
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

7

→(既存研究
存研究 勝利!

4 / 14

表

評価

背景削除

)6/7

既
要旨
• 深層学習+強化学習(Deep Q-Learning)
◦ 行動価値関数 Q(s, a) 畳 込
現(Deep Q-Network)
• Atari 2600

7

評価

→(既存研究
背景削除
存研究 勝利!
→
3/7 Expert Human Player
4 / 14

表

)6/7
勝利! 優秀!

既
Arcade Learning Environment
+学習用

• Atari 2600
•

観測

画面

◦ 210 × 160 & 128 colors

• 現在

• 終了判定

• http://www.arcadelearningenvironment.org/

5 / 14
強化学習

ALE

• ALE 部分観測
決定過程(POMDP)
◦ 観測
画面
現在 状況
•
時間
t
状態 次
◦ st = x1 , a1 , x2 , · · · , at−1 , xt
◦ x 観測
画面,a 入力
行動

→ 有限
手法 使

6 / 14

決定過程

,

定義

強化学習
行動価値関数
• 最大化

:将来 (割引)報酬 Rt =

T
t ′ =t

′

γ t −t rt ′

• 方策 π : S → A

• (最適)行動価値関数

Q ∗ (s, a) = max E [Rt |st = s, at = a, π]
π

有限

決定過程

,

Bellman 方程式 唯一解

Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a]
′
a

7 / 14
行動価値関数 関数近似
• Q(s, a; θ) ≈ Q ∗ (s, a)

,Bellman 方程式 誤差 最小化

Li (θi ) = E [(yi − Q(s, a; θi )2 ]
yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a]
′
a

∇θi Li (θi )
= E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )]
′
a

• 今回
8 / 14

RMSProp

使

逆伝搬
Rprop
• 勾配 大
見 符号
見 重
更新
逆伝搬法
•
更新量
決
?
◦ 符号 2 連続 同
更新量 増
e.g. 1.2 倍
◦
減
e.g. 0.5 倍
• 利点
◦ 勾配 小
場所(plateau)
速
脱出
• 欠点
◦
学習
e.g. 9 個
勾配 +0.1,10 個目 −0.9 場合
9 / 14
RMSProp

• Rprop
◦ 勾配 大

学習

使

2 乗 移動平均 MeanSquare(w , t)

保持

MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1(
◦ 勾配
MeanSquare(w , t) 割
◦
論文
,Coursera
•

10 / 14

講義

“Neural Networks for Machine Learning”

Lecture 6.5

∂E
(t))2
∂w
Experience Replay

• 過去

遷移 (st , at , rt , st+1 )

•

• 利点
◦

11 / 14

振 舞
過去
振動・発散

replay memory 保存
遷移 対
誤差最小化

防

平均化
効果

,
Deep Q-Network
1st hidden
layer

input

• 入力:

• 出力:各
12 / 14

fully
connected

4x4x16 filter
stride 2

20x20x16

4

3rd hidden
output
layer

fully
connected

8x8x4 filter
stride 4

84x84x4

2nd hidden
layer

9x9x32

画面(縮小
行動価値

256

4~18

化)
結果

• 人間 勝利:Breakout,Pong,Enduro
• 人間 全 敵
:Q*bert, Seaquest,Space Invaders
◦ 比較的長期的 戦略 必要
13 / 14
感想

•

• 他
◦
◦

14 / 14

AI
使
先読
使

波 来
…
? e.g. 将棋,囲碁,StarCraft,etc.
重要

難
使

Contenu connexe

Tendances

Tendances (20)

方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
MineRL Competition Tutorial with ChainerRL
MineRL Competition Tutorial with ChainerRLMineRL Competition Tutorial with ChainerRL
MineRL Competition Tutorial with ChainerRL
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]DIVERSE TRAJECTORY FORECASTING WITH DETERMINANTAL POINT PROCESSES
[DL輪読会]DIVERSE TRAJECTORY FORECASTING WITH DETERMINANTAL POINT PROCESSES[DL輪読会]DIVERSE TRAJECTORY FORECASTING WITH DETERMINANTAL POINT PROCESSES
[DL輪読会]DIVERSE TRAJECTORY FORECASTING WITH DETERMINANTAL POINT PROCESSES
 
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 

Similaire à "Playing Atari with Deep Reinforcement Learning"

Similaire à "Playing Atari with Deep Reinforcement Learning" (6)

SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習
 
強化学習の汎用化Ros
強化学習の汎用化Ros強化学習の汎用化Ros
強化学習の汎用化Ros
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
 

Plus de mooopan (9)

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradient
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
 

Dernier

Dernier (11)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

"Playing Atari with Deep Reinforcement Learning"

  • 1. “Playing Atari with Deep Reinforcement Learning” 藤田康博 January 23, 2014
  • 2. 自己紹介 • 名前:藤田康博 • 修士 1 年 AI,強化学習 • NIPS 読 会初参加 • ◦ 2 / 14 手柔 願
  • 3. 読 論文 • Playing Atari with Deep Reinforcement Learning ◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller NIPS Deep Learning Workshop, 2013. • 本会議 … • 選 理由 ◦ +深層学習+強化学習 ◦ 深層学習+強化学習 少 ◦ 結果 3 / 14 ( )初
  • 4. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 4 / 14 7 評価 表
  • 5. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 7 →(既存研究 存研究 勝利! 4 / 14 表 評価 背景削除 )6/7 既
  • 6. 要旨 • 深層学習+強化学習(Deep Q-Learning) ◦ 行動価値関数 Q(s, a) 畳 込 現(Deep Q-Network) • Atari 2600 7 評価 →(既存研究 背景削除 存研究 勝利! → 3/7 Expert Human Player 4 / 14 表 )6/7 勝利! 優秀! 既
  • 7. Arcade Learning Environment +学習用 • Atari 2600 • 観測 画面 ◦ 210 × 160 & 128 colors • 現在 • 終了判定 • http://www.arcadelearningenvironment.org/ 5 / 14
  • 8. 強化学習 ALE • ALE 部分観測 決定過程(POMDP) ◦ 観測 画面 現在 状況 • 時間 t 状態 次 ◦ st = x1 , a1 , x2 , · · · , at−1 , xt ◦ x 観測 画面,a 入力 行動 → 有限 手法 使 6 / 14 決定過程 , 定義 強化学習
  • 9. 行動価値関数 • 最大化 :将来 (割引)報酬 Rt = T t ′ =t ′ γ t −t rt ′ • 方策 π : S → A • (最適)行動価値関数 Q ∗ (s, a) = max E [Rt |st = s, at = a, π] π 有限 決定過程 , Bellman 方程式 唯一解 Q ∗ (s, a) = E [rt+1 + γ max Q ∗ (st+1 , a′ )|st = s, at = a] ′ a 7 / 14
  • 10. 行動価値関数 関数近似 • Q(s, a; θ) ≈ Q ∗ (s, a) ,Bellman 方程式 誤差 最小化 Li (θi ) = E [(yi − Q(s, a; θi )2 ] yi = E [rt+1 + γ max Q(st+1 , a′ ; θi−1 )|st = s, at = a] ′ a ∇θi Li (θi ) = E [(rt+1 + γ max Q(st+1 , a′ ; θi−1 ) − Q(s, a; θi ))∇θi Q(s, a; θi )] ′ a • 今回 8 / 14 RMSProp 使 逆伝搬
  • 11. Rprop • 勾配 大 見 符号 見 重 更新 逆伝搬法 • 更新量 決 ? ◦ 符号 2 連続 同 更新量 増 e.g. 1.2 倍 ◦ 減 e.g. 0.5 倍 • 利点 ◦ 勾配 小 場所(plateau) 速 脱出 • 欠点 ◦ 学習 e.g. 9 個 勾配 +0.1,10 個目 −0.9 場合 9 / 14
  • 12. RMSProp • Rprop ◦ 勾配 大 学習 使 2 乗 移動平均 MeanSquare(w , t) 保持 MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1( ◦ 勾配 MeanSquare(w , t) 割 ◦ 論文 ,Coursera • 10 / 14 講義 “Neural Networks for Machine Learning” Lecture 6.5 ∂E (t))2 ∂w
  • 13. Experience Replay • 過去 遷移 (st , at , rt , st+1 ) • • 利点 ◦ 11 / 14 振 舞 過去 振動・発散 replay memory 保存 遷移 対 誤差最小化 防 平均化 効果 ,
  • 14. Deep Q-Network 1st hidden layer input • 入力: • 出力:各 12 / 14 fully connected 4x4x16 filter stride 2 20x20x16 4 3rd hidden output layer fully connected 8x8x4 filter stride 4 84x84x4 2nd hidden layer 9x9x32 画面(縮小 行動価値 256 4~18 化)
  • 15. 結果 • 人間 勝利:Breakout,Pong,Enduro • 人間 全 敵 :Q*bert, Seaquest,Space Invaders ◦ 比較的長期的 戦略 必要 13 / 14
  • 16. 感想 • • 他 ◦ ◦ 14 / 14 AI 使 先読 使 波 来 … ? e.g. 将棋,囲碁,StarCraft,etc. 重要 難 使