SlideShare une entreprise Scribd logo
11 *Off-policy Methods
with Approximation
On-policy : 학습하는 policy와 행동하는 policy가 반드시 같아야만 학습이 가
능한 강화학습 알고리즘.

ex) Sarsa

on-policy의 경우 1번이라도 학습을 해서 policy improvement를 시킨 순간,
그 policy가 했던 과거의 experience들은 모두 사용이 불가능하다. 즉 매우 데이
터 효율성이 떨어진다. 바로바로 exploration해서 학습하고 재사용이 불가능하
다.

Off-policy : 학습하는 policy와 행동하는 policy가 반드시 같지 않아도 학습이
가능한 알고리즘.

ex) Q-learning

off-policy는 현재 학습하는 policy가 과거에 했던 experience도 학습에 사용이
가능하고, 심지어는 해당 policy가 아니라 예를 들어 사람이 한 데이터로부터도
학습을 시킬 수가 있다.
http://newsight.tistory.com/250
Iterative Policy Evaluation
Value iteration
백병인 / http://www.modulabs.co.kr/RL_Practice/11827
Off-policy approximation value-function bellman TD
Third dimension
모든 reward, state, action, transition
Policy iteration 과 value integration 사이의 확실한 이해
Optimal policy
Sample sequences of
states, actions, and rewards
No Full-width backup
V(S_t)가 업데이트 되는 때는 Unless S_t appears in S_0, S_1,…,S_t-1를
이해해야 가능
Dynamic long episode
Sutton p.123
Sutton p.130
Using policy derived from Q와
Q에서 Q로 업데이트 하는 쉬운 이유
Value Function을 계속 예상해나가는데,
P(X)라는 Policy => Q(X)라는 Policy
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation

Contenu connexe

Plus de 민석 김

복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식
민석 김
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3
민석 김
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1
민석 김
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2
민석 김
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기
민석 김
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기
민석 김
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기
민석 김
 

Plus de 민석 김 (7)

복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기
 

off-policy methods with approximation