SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
[DL Papers]
Fujiki Nakamura
Playing FPS Games with Deep Reinforcement Learning
- 書誌情報
- ViZDoom と Visual Doom AI Competition
- review Deep Q-Networks
- POMDP における RL agent
- Arnold model
- Experiments, Results, Conclusion
- Bonus
- Learning to Act by Predicting the Future (DFP)
- RL Framework “Coach”
- References
- �出� arXiv on 18 Sep 2016.
- AAAI 2017 accepted paper.
- Guillaume Lample, Devendra Singh Chaplot
- CMU �人た�.
- Visual Doom AI Competition 2016 で2位���を収めたモデル.
- チーム Terminators による Arnold という bot.
- Visual Doom AI Competition 2017 で�1位.
Visual Doom AI Competition
- FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン.
- ViZDoom [Kempka+ 2016] というプラットフォームが舞台.
- 参�チーム��自が��した ViZDoom bot を競い合わせる.
- 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
Defend the Center.
�����にいて,�りに出�する敵を倒す .
コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage
health gathering.
health pack を回収しより長く生き延びる.
また毒薬瓶に触れることで health を失う.
- 方方策策 (policy)
- 状態 s で�行動 a ��び方.π : S ↦ A
- 確率的方策 π(a|s) であることもし�し�.
- 収収益益 (Return)
- を最大化したい.
- �値によって割り引く.
- 行行動動価価値値関関数数 (Q-function)
- 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬.
Deep Q-Networks (brief review)
- 最最適適方方策策 π*
- 期待累積報酬を最大化する方策.
- 最最適適行行動動価価値値関関数数
- Q*(s, a) = Qπ*
(s, a) = maxπ
(s, a)
- 最終的に,π(s) = argmaxa
Q*(s, a) として最適方策を得る.
- 最適行動価値 Q* をどうやって求めるか?
- → Bellman 最最適適方方程程式式 (Bellman optimality equation)
- 最適行動価値関数に関する再帰的な関係式.
- 行動価値関数が最適であるため��要����.
Deep Q-Networks (brief review)
- 最終的に,以���失関数を最適化する.
- Bellman 最適方程式���と��が�しくなることを��す.
- DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため�
- Experience Replay
- Target Q-Network
- reward clipping
- これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13.
Deep Q-Networks (brief review)
Q ����
= ターゲット
- DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で�
Deep Q-Networks (brief review)
�行動� Q値を出力
Mnih et al., 2015
Markov Decision Process
- ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP)
- 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式.
- 完全観測 (fully observable)
- 重要な��,���こと����状態��で決まる/決められるということ.
10Reinforcement Learning: An Introduction (Second edition), Sutton
Markov Decision Process
- [参考] David Silver �生�講義スライ�.ついでに [講義動画]
Partially Observable MDP
- agent が環境�状態を完全に観測することができると��らない.
- 完全観測で�なくて,��観測.
- 例え�,以����な例で�,����にかかわら�チーター�状態��化していない
Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 �
Supervised learning and imitation 回�スライ�から��.
Partially Observable MDP
- (例によって) [参考] David Silver �生�講義スライ�
観測�観測関数Z により決まる
POMDP ��対処
- DQN が得意とする Atari も (よくよく考えれ�) POMDP.
- 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速
- DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対
14Hausknecht et al., 2015
- ���フレーム�差�を入力として,速��情報を得る.
- Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy
- �����モデル�,policy を直接最適化する policy gradient という手法.
- ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない)
- Pong をプレイする agent を numpy でスクラッチで書いている.
- チュートリアルとして�価が高い���ですよ�.
POMDP ��対処
Deep Recurrent Q-Networks
- DRQN [Hausknecht+ 2015]
- LSTM を使うことで1フレームを
- Arnold �基�となるモデル.
Arnold model
Game feature augmentation
- 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc)
- ゲーム�����出をさせることでパフォーマンスが��.
- → CNN � kernel が重要な情報を捉える.
game feature あり��合 パフォーマンスが向上
Arnold model
Arnold model
Divide and conquer
- deathmatch �敵���によって,2つ�フェー�に�けられる.
- action phase : 敵と戦う
- navigation phase : マップを探索し,アイテム・敵を探す
- action network (= DRQN + game feature) が敵���を��.
- 敵がいない or 弾薬がない → navigation network (= DQN)
- それ以外 → action network
Reward Shaping
- コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数)
- sparse な�で学習が困難 かつ delayed な�で credit assignment も困難.
- 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化.
- action network
➕ 敵を殺す
➖ 自殺
➕ アイテムを拾う (health, weapon, ammo)
➖ health �低� (敵��撃を受ける, ���上を�く)
➖ 撃って弾薬を失う
- navigation network
➕ アイテムを拾う
➖ ���上を�く
少し➕ 最��ステップから�移動��に�じて 20
Frame Skip
- 結果的に 4 frame skip するとよいことがわかった.
- skip ��同じ行動をリ�ート.学習が高速化.
Sequential updates
- 最低でも 4 history を経てから update するようにした.
update 数が多いと サンプル��関が高くなり,よくな
- deathmatch
- built-in � Doom bot と対戦.
- 最終スコア� frag数 (= 倒した bot 数 - 自殺数)
- Limited deathmatch
- 訓練とテストで同じマップ.
- 武器���ットランチ�ー��.health pack と弾薬を回収できる.
- Full deathmatch
- 訓練とテストで異なるマップ.
- 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる.
- 汎化性能をチェック.
Evaluation Metrics
- 基本,K/D (倒した数 / 倒された数)
- �にも倒した数��対数,回収したアイテム数など
Results & Analysis
- デモ video
- navigation network があるとよい (Table 2)
- 武器・アイテムを回収することに貢献.
- 人間を outperform (Table 1)
- game feature �予測�あった�うがよい.
- 敵���予測���と最終スコア��関
- recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が
- ViZDoom AI Competition 2016 結果
- [Chaplot+ 2017]
- frag数的に�2位.
- K/D で��を�いている.
- 2017年�コン�で�1位.
- IntelAct [Dosovitskiy+ 2016]
- Arnold ��敵
- 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝.
- (再掲) Visual Doom AI Competition 2016
- DL輪読会で読まれたことがある [link]
- ��に���的な RL で�なく,教師あり学習.
- health, frag, 弾薬数といった “measurements” ���における値を予測.
- supplementary video, deathmatch
- 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある.
- UNREAL [Jaderberg+ 2016] [DeepMind Blog]
- 基本的な RL で�わ�かな教師��を�りに学習している.
- よって,大��データが�要 (サンプル効率❌)
- 補助的な教師なしタスクを同時に学習させることで,問題解決.
- Arnold � game feature 予測と同じ役割.
RL Framework “Coach”
- rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース.
- OpenAI Gym, Roboschool, ViZDoom ��環境が使える.
- 最近,CARLA という自動運転シミュレータもサポート.
- agent �ライン�ップ�,DQN, PG, A3C, PPO, etc
- DFP もサポートしている�� Coach だけ!
26Reinforcement Learning Coach by Intel より引用
Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している )
自動運転にどれだけ RL が関係していく�か�,�人的に��.
- [Kempka+ 2016]
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning
- [Mnih+ 2015]
Human-level control through deep reinforcement learning
- [Hausknecht+ 2015]
Deep Recurrent Q-Learning for Partially Observable MDPs
- [Chaplot+ 2017]
Arnold: An Autonomous Agent to Play FPS Games
- [Dosovitskiy+ 2016]
Learning to Act by Predicting the Future
- [Jaderberg+ 2016]
Reinforcement Learning with Unsupervised Auxiliary Tasks
- [Dosovitskiy+ 2017]
CARLA: An Open Urban Driving Simulator

Contenu connexe


強化学習アルゴリズムPPOの解説と実験克海 納谷
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
数学で解き明かす深層学習の原理Taiji Suzuki
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...Deep Learning JP
[DL輪読会]AlphaStarとその関連技術Deep Learning JP
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
ConvNetの歴史とResNet亜種、ベストプラクティスYusuke Uchida
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
全力解説!TransformerArithmer Inc.
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
GAN(と強化学習との関係)Masahiro Suzuki
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...Deep Learning JP
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~ryuz88
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP

Tendances (20)

DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
【DL輪読会】事前学習用データセットについてDeep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...


新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452

Dernier (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

[DL Hacks 実装]Playing FPS Games with Deep Reinforcement Learning

  • 1. DEEP LEARNING JP [DL Papers] Fujiki Nakamura Playing FPS Games with Deep Reinforcement Learning
  • 2. - 書誌情報 - ViZDoom と Visual Doom AI Competition - review Deep Q-Networks - MDP/POMDP - POMDP における RL agent - Arnold model - Experiments, Results, Conclusion - Bonus - Learning to Act by Predicting the Future (DFP) - UNREAL - RL Framework “Coach” - References content 2
  • 3. - �出� arXiv on 18 Sep 2016. - AAAI 2017 accepted paper. - Guillaume Lample, Devendra Singh Chaplot - CMU �人た�. - Visual Doom AI Competition 2016 で2位���を収めたモデル. - チーム Terminators による Arnold という bot. - Visual Doom AI Competition 2017 で�1位. 書誌情報 3
  • 4. Visual Doom AI Competition 4 - FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン. - ViZDoom [Kempka+ 2016] というプラットフォームが舞台. - 参�チーム��自が��した ViZDoom bot を競い合わせる. - 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
  • 5. basic. �対���に出�する敵を倒す. 横移動と射撃. Defend the Center. �����にいて,�りに出�する敵を倒す . 回転と射撃. ViZDoom 5 コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage health gathering. health pack を回収しより長く生き延びる. ����により�定�期で, また毒薬瓶に触れることで health を失う.
  • 6. - 方方策策 (policy) - 状態 s で�行動 a ��び方.π : S ↦ A - 確率的方策 π(a|s) であることもし�し�. - 収収益益 (Return) - を最大化したい. - �値によって割り引く. - 行行動動価価値値関関数数 (Q-function) - 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬. Deep Q-Networks (brief review) 6
  • 7. - 最最適適方方策策 π* - 期待累積報酬を最大化する方策. - 最最適適行行動動価価値値関関数数 - Q*(s, a) = Qπ* (s, a) = maxπ Qπ (s, a) - 最終的に,π(s) = argmaxa Q*(s, a) として最適方策を得る. - 最適行動価値 Q* をどうやって求めるか? - → Bellman 最最適適方方程程式式 (Bellman optimality equation) - 最適行動価値関数に関する再帰的な関係式. - 行動価値関数が最適であるため��要����. Deep Q-Networks (brief review) 7
  • 8. - 最終的に,以���失関数を最適化する. - Bellman 最適方程式���と��が�しくなることを��す. - DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため� 工夫が施されている. - Experience Replay - Target Q-Network - reward clipping - これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13. Deep Q-Networks (brief review) 8 Q ���� = ターゲット
  • 9. - DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で� 御できる強化学習モデル. Deep Q-Networks (brief review) 9 �行動� Q値を出力 Mnih et al., 2015
  • 10. Markov Decision Process - ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP) - 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式. - 完全観測 (fully observable) - 重要な��,���こと����状態��で決まる/決められるということ. 10Reinforcement Learning: An Introduction (Second edition), Sutton
  • 11. Markov Decision Process - [参考] David Silver �生�講義スライ�.ついでに [講義動画] 11
  • 12. Partially Observable MDP - agent が環境�状態を完全に観測することができると��らない. - 完全観測で�なくて,��観測. - 例え�,以����な例で�,����にかかわら�チーター�状態��化していない が,��せいで観測��化している. 12 Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 � Supervised learning and imitation 回�スライ�から��.
  • 13. Partially Observable MDP - (例によって) [参考] David Silver �生�講義スライ� 13 st �も�や直接�観測されない ot を代わり受け取る 観測�観測関数Z により決まる
  • 14. POMDP ��対処 - DQN が得意とする Atari も (よくよく考えれ�) POMDP. - 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速 ���からない. - DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対 処している. 14Hausknecht et al., 2015
  • 15. - ���フレーム�差�を入力として,速��情報を得る. - Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy - �����モデル�,policy を直接最適化する policy gradient という手法. - ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない) - Pong をプレイする agent を numpy でスクラッチで書いている. - チュートリアルとして�価が高い���ですよ�. POMDP ��対処 15
  • 16. Deep Recurrent Q-Networks - DRQN [Hausknecht+ 2015] - LSTM を使うことで1フレームを 入力としながらも,複数フレーム間 にまたがる情報を統合することが できる. - Arnold �基�となるモデル. 16
  • 17. Arnold model Game feature augmentation - 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc) - ゲーム�����出をさせることでパフォーマンスが��. - → CNN � kernel が重要な情報を捉える. 17 game feature あり��合 パフォーマンスが向上
  • 19. Arnold model Divide and conquer - deathmatch �敵���によって,2つ�フェー�に�けられる. - action phase : 敵と戦う - navigation phase : マップを探索し,アイテム・敵を探す - action network (= DRQN + game feature) が敵���を��. - 敵がいない or 弾薬がない → navigation network (= DQN) - それ以外 → action network 19
  • 20. Training Reward Shaping - コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数) - sparse な�で学習が困難 かつ delayed な�で credit assignment も困難. - 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化. - action network ➕ 敵を殺す ➖ 自殺 ➕ アイテムを拾う (health, weapon, ammo) ➖ health �低� (敵��撃を受ける, ���上を�く) ➖ 撃って弾薬を失う - navigation network ➕ アイテムを拾う ➖ ���上を�く 少し➕ 最��ステップから�移動��に�じて 20
  • 21. Training Frame Skip - 結果的に 4 frame skip するとよいことがわかった. - skip ��同じ行動をリ�ート.学習が高速化. Sequential updates - 最低でも 4 history を経てから update するようにした. 21 update 数が多いと サンプル��関が高くなり,よくな い.
  • 22. Experiments Scenarios - deathmatch - built-in � Doom bot と対戦. - 最終スコア� frag数 (= 倒した bot 数 - 自殺数) - Limited deathmatch - 訓練とテストで同じマップ. - 武器���ットランチ�ー��.health pack と弾薬を回収できる. - Full deathmatch - 訓練とテストで異なるマップ. - 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる. - 汎化性能をチェック. 22
  • 23. Experiments Evaluation Metrics - 基本,K/D (倒した数 / 倒された数) - �にも倒した数��対数,回収したアイテム数など Results & Analysis - デモ video - navigation network があるとよい (Table 2) - 武器・アイテムを回収することに貢献. - 人間を outperform (Table 1) - game feature �予測�あった�うがよい. - 敵���予測���と最終スコア��関 23
  • 24. - recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が できた. - ViZDoom AI Competition 2016 結果 - [Chaplot+ 2017] - frag数的に�2位. - K/D で��を�いている. - 2017年�コン�で�1位. Conclusion 24
  • 25. Bonus 25 - IntelAct [Dosovitskiy+ 2016] - Arnold ��敵 - 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝. - (再掲) Visual Doom AI Competition 2016 - DL輪読会で読まれたことがある [link] - ��に���的な RL で�なく,教師あり学習. - health, frag, 弾薬数といった “measurements” ���における値を予測. - supplementary video, deathmatch - 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある. - UNREAL [Jaderberg+ 2016] [DeepMind Blog] - 基本的な RL で�わ�かな教師��を�りに学習している. - よって,大��データが�要 (サンプル効率❌) - 補助的な教師なしタスクを同時に学習させることで,問題解決. - Arnold � game feature 予測と同じ役割.
  • 26. RL Framework “Coach” - rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース. - OpenAI Gym, Roboschool, ViZDoom ��環境が使える. - 最近,CARLA という自動運転シミュレータもサポート. - agent �ライン�ップ�,DQN, PG, A3C, PPO, etc - DFP もサポートしている�� Coach だけ! Bonus 26Reinforcement Learning Coach by Intel より引用
  • 27. Bonus 27 Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している ) 自動運転にどれだけ RL が関係していく�か�,�人的に��.
  • 28. References 28 - [Kempka+ 2016] ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning - [Mnih+ 2015] Human-level control through deep reinforcement learning - [Hausknecht+ 2015] Deep Recurrent Q-Learning for Partially Observable MDPs - [Chaplot+ 2017] Arnold: An Autonomous Agent to Play FPS Games - [Dosovitskiy+ 2016] Learning to Act by Predicting the Future - [Jaderberg+ 2016] Reinforcement Learning with Unsupervised Auxiliary Tasks - [Dosovitskiy+ 2017] CARLA: An Open Urban Driving Simulator