3. Human-level control through
deep reinforcement learning
Volodymyr Mnih, Koray Kavukcuoglu,
David Silver, Andrei A. Rusu, Joel
Veness, Marc G. Bellemare, Alex
Graves, Martin Riedmiller, Andreas
K. Fidjeland, Georg Ostrovski, Stig
Petersen, Charles Beattie, Amir Sadik,
Ioannis Antonoglou, Helen King,
Dharshan Kumaran, Daan Wierstra,
Shane Legg & Demis Hassabis
Nature
5. Задача
● Универсальный алгоритм, способный
научиться делать что угодно на основе
данных о среде и подкреплении (ИИ)
○ Алгоритм, способный играть в видеоигры,
получая на входе видеоизображение и
информацию об изменении очков. Цель
алгоритма — набрать максимальное количество
очков.
7. Что мы умеем
● X → Y
○ закономерность нелинейная
○ X высокой размерность (например, картинка)
● Дифференцируемая ошибка
(относительно параметров алгоритма)
● Быстро обрабатывать много данных
21. Action-Value function (Bellman Eq)
Q(s, a) = Es’
[r + ɣ maxa’
Q(s’, a’) | s,a]
s — текущее состояние
a — действие на текущее состояние
s’ — состояние, последовавшее s после совершения
действия a
r — подкрепление на действие a
33. Другие тонкости
● ε-greedy выбор действия (с ε=1→0.1 за 1млн кадров)
● Видео сжимается с 210x160 до 84x84
● Состояние запоминается в виде 4х кадров
● Сглаживание картинок (особенность Atari)
● Все подкрепления имеют значения {-1, 0, 1}
● Разница между критиком и актором обрезается до
[-1, 1]
35. Рекомендуемые ресурсы
1. Andrew Ng. Machine Learning (лучшее введение в нейросети)
2. Nando de Freitas. Deep Learning (лекции 15-16 про RL и DeepMind)
3. Sergey Levine. Deep Learning for Decision Making and Control (другой
подход к Deep RL)
4. Peter Norvig. Artificial Intelligence: A Modern Approach. 3ed.
5. David Silver. Deep Reinforcement Learning (презентация)
6. Mnih at al. Human-level control through deep reinforcement learning
7. Andrej Karpathy. REINFORCE.js