15. - ���フレーム�差�を入力として,速��情報を得る.
- Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy
- �����モデル�,policy を直接最適化する policy gradient という手法.
- ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない)
- Pong をプレイする agent を numpy でスクラッチで書いている.
- チュートリアルとして�価が高い���ですよ�.
POMDP ��対処
15
16. Deep Recurrent Q-Networks
- DRQN [Hausknecht+ 2015]
- LSTM を使うことで1フレームを
入力としながらも,複数フレーム間
にまたがる情報を統合することが
できる.
- Arnold �基�となるモデル.
16
17. Arnold model
Game feature augmentation
- 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc)
- ゲーム�����出をさせることでパフォーマンスが��.
- → CNN � kernel が重要な情報を捉える.
17
game feature あり��合 パフォーマンスが向上
28. References
28
- [Kempka+ 2016]
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning
- [Mnih+ 2015]
Human-level control through deep reinforcement learning
- [Hausknecht+ 2015]
Deep Recurrent Q-Learning for Partially Observable MDPs
- [Chaplot+ 2017]
Arnold: An Autonomous Agent to Play FPS Games
- [Dosovitskiy+ 2016]
Learning to Act by Predicting the Future
- [Jaderberg+ 2016]
Reinforcement Learning with Unsupervised Auxiliary Tasks
- [Dosovitskiy+ 2017]
CARLA: An Open Urban Driving Simulator