off-policy methods with approximation

11 *Off-policy Methods
with Approximation

On-policy : 학습하는 policy와 행동하는 policy가 반드시 같아야만 학습이 가
능한 강화학습 알고리즘.

ex) Sarsa

on-policy의 경우 1번이라도 학습을 해서 policy improvement를 시킨 순간,
그 policy가 했던 과거의 experience들은 모두 사용이 불가능하다. 즉 매우 데이
터 효율성이 떨어진다. 바로바로 exploration해서 학습하고 재사용이 불가능하
다.

Oﬀ-policy : 학습하는 policy와 행동하는 policy가 반드시 같지 않아도 학습이
가능한 알고리즘.

ex) Q-learning

oﬀ-policy는 현재 학습하는 policy가 과거에 했던 experience도 학습에 사용이
가능하고, 심지어는 해당 policy가 아니라 예를 들어 사람이 한 데이터로부터도
학습을 시킬 수가 있다.
http://newsight.tistory.com/250

백병인 / http://www.modulabs.co.kr/RL_Practice/11827

Oﬀ-policy approximation value-function bellman TD

모든 reward, state, action, transition

Policy iteration 과 value integration 사이의 확실한 이해

Sample sequences of
states, actions, and rewards
No Full-width backup

V(S_t)가 업데이트 되는 때는 Unless S_t appears in S_0, S_1,…,S_t-1를
이해해야 가능

Sutton p.130
Using policy derived from Q와
Q에서 Q로 업데이트 하는 쉬운 이유

Value Function을 계속 예상해나가는데,
P(X)라는 Policy => Q(X)라는 Policy

off-policy methods with approximation

off-policy methods with approximation

Recommandé

Recommandé

Contenu connexe

Plus de 민석 김

Plus de 민석 김 (7)

off-policy methods with approximation