강화학습의 흐름도 Part 1

강화학습 알고리즘의 흐름도 Part 1
- 수식 중점 -
이동민
Reference
이 자료는 위의 책을 바탕으로 만들었습니다.
출처 : 파이썬과 케라스로 배우는 강화학습
이미지 출저 : http://wikibook.co.kr/reinforcement-learning
Index
1. MDP
2. 정책
3. 가치함수
4. 다이나믹 프로그래밍
강화학습 알고리즘의 흐름도 Part 1
- 수식 중점 -
1. MDP(Markov Decision Process)
1. MDP(Markov Decision Process)
𝑆𝑡 = s상태(State)
행동(Action) 𝐴 𝑡 = a
보상함수(Reward Function) 𝑅 𝑠
𝑎
= E[𝑅𝑡+1|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
상태 변환 확률
(State Transition Probability) 𝑃𝑠𝑠`
𝑎
= P[𝑆𝑡+1 = 𝑠`|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
할인율(Discount Factor) 𝛾 (단, 𝛾 ∈ [0,1])
2. 정책(Policy)
2. 정책(Policy)
𝜋 𝑎 𝑠 = 𝑃[𝐴 𝑡 = 𝑎|𝑆𝑡 = 𝑠]
정책(Policy)의 정의
3. 가치함수(Value Function)
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
상태 가치함수(State Value Function)
𝑣 𝑠 = 𝐸[𝐺𝑡|𝑆𝑡 = 𝑠]
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2
𝑅𝑡+3 + ⋯ |𝑆𝑡 = 𝑠]
- 상태 가치함수의 정의
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + 𝛾𝑅𝑡+3 + ⋯ )|𝑆𝑡 = 𝑠]
- 앞으로 받을 보상으로 표현한 상태 가치함수
(𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2
𝑅𝑡+3 + ⋯)
- 앞으로 받을 보상에서 𝛾 로 묶어 표현한 상태 가치함수
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
상태 가치함수(State Value Function)
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑣(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 가치함수로 표현한 상태 가치함수
𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 정책을 고려한 상태 가치함수
(𝑣 𝑆𝑡+1 = 𝐸[𝐺𝑡+1|𝑆𝑡+1 = 𝑠])
3. 가치함수(Value Function)
가치함수(Value Function)
상태 가치함수(State Value Function) 행동 가치함수(Action Value Function)
상태가 입력으로 들어오면 그 상태에서
앞으로 받을 보상의 합을 출력하는 함수
어떤 상태에서 각 행동에 대해
따로 가치함수를 만들어서
어떤 행동이 얼마나 좋은지 알려주는 함수
행동 가치함수(Action Value Function)
행동 가치함수(Action Value Function)
= 큐함수(Q Function)
큐함수(Q Function)
𝑣 𝜋 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)𝑞 𝜋(𝑠, 𝑎)
𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 큐함수의 정의
- 상태 가치함수와 큐함수 사이의 관계식
4. 다이나믹 프로그래밍
(Dynamic Programming)
다이나믹 프로그래밍(Dynamic Programming, DP)이란?
다이나믹(Dynamic)
동적 메모리
(동적메모리란 메모리가
시간에 따라 변하는 메모리)
프로그래밍(Programming)
컴퓨터 프로그래밍이 아니라
계획을 하는 것으로서 여러 프로세스가
다단계로 이루어지는 것
+
한 마디로 큰 문제 안에 작은 문제들이 중첩된 경우에
전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.
4. 다이나믹 프로그래밍(Dynamic Programming)
왜 다이나믹 프로그래밍이 강화학습에서 나올까요??
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍은 이후에 강화학습의 근원이 되었기 때문입니다.
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
정책 평가(Policy Evaluation)
정책 평가 -> 벨만 기대 방정식
𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠]
𝑣 𝜋 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾 ෍
𝑠`∈𝑆
𝑃𝑠𝑠`
𝑎
𝑣 𝜋(𝑠`))
- 벨만 기대 방정식의 정의
- 계산 가능한 벨만 기대 방정식
𝑣 𝑘+1 𝑠 = ෍
𝑎∈𝐴
𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾𝑣 𝑘 𝑠` ) - k와 k+1로 표현한 벨만 기대 방정식
(상태 변환 확률 = 1)
정책 이터레이션(Policy Iteration)
정책 이터레이션
= 벨만 기대 방정식을 이용
= 정책 + 가치함수
= 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax)
= 정책 평가(Policy Evaluation)
+ 탐욕 정책 발전(Greedy Policy Improvement)
탐욕 정책 발전(Greedy Policy Improvement)
탐욕 정책 발전 -> 큐함수(argmax)
큐함수의 정의
계산 가능한 형태로 고친 큐함수
(상태 변환 확률 = 1)
- 탐욕 정책 발전으로 얻은 새로운 정책
𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
𝑞 𝜋(𝑠, 𝑎) = 𝑅 𝑠
𝑎 + 𝛾𝑣 𝜋(𝑠`)
𝜋` 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎∈𝐴 𝑞 𝜋(𝑠, 𝑎)
4. 다이나믹 프로그래밍(Dynamic Programming)
다이나믹 프로그래밍(DP)
정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration)
다이나믹 프로그래밍으로
벨만 기대 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
다이나믹 프로그래밍으로
벨만 최적 방정식을 이용하여
순차적인 행동 결정 문제를 푸는 것
가치 이터레이션(Value Iteration)
가치 이터레이션
= 벨만 최적 방정식을 이용
= 행동 가치함수(=큐함수, max)
𝑞∗(𝑠, 𝑎) = 𝐸[𝑅𝑡+1 + 𝛾 max
𝑎`
𝑞∗(𝑆𝑡+1, 𝑎`) |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎]
𝑣∗ 𝑠 = max
𝑎
𝐸[𝑅𝑡+1 + 𝛾𝑣∗(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 벨만 최적 방정식의 정의
- 큐함수로 표현한 벨만 최적 방정식
𝑣 𝑘+1(𝑠) = max
𝑎∈𝐴
(𝑅 𝑠
𝑎 + 𝛾𝑣 𝑘 𝑠` ) k와 k+1로 표현한 계산 가능한 벨만 최적 방정식
(상태 변환 확률 = 1)
강화학습은 사랑입니다♥
감사합니다.
1 sur 30

Recommandé

강화학습 알고리즘의 흐름도 Part 2 par
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2Dongmin Lee
18K vues64 diapositives
RLCode와 A3C 쉽고 깊게 이해하기 par
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기Woong won Lee
19.5K vues72 diapositives
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN) par
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
36K vues196 diapositives
파이썬과 케라스로 배우는 강화학습 저자특강 par
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강Woong won Lee
18.6K vues68 diapositives
파이썬으로 나만의 강화학습 환경 만들기 par
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
17.5K vues129 diapositives
가깝고도 먼 Trpo par
가깝고도 먼 Trpo가깝고도 먼 Trpo
가깝고도 먼 TrpoWoong won Lee
6.9K vues53 diapositives

Contenu connexe

Tendances

[RLkorea] 각잡고 로봇팔 발표 par
[RLkorea] 각잡고 로봇팔 발표[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표ashley ryu
504 vues126 diapositives
안.전.제.일. 강화학습! par
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!Dongmin Lee
5K vues162 diapositives
Soft Actor Critic 解説 par
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説KCS Keio Computer Society
2.4K vues19 diapositives
Dueling Network Architectures for Deep Reinforcement Learning par
Dueling Network Architectures for Deep Reinforcement LearningDueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement LearningYoonho Lee
479 vues39 diapositives
Introduction of Deep Reinforcement Learning par
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
5.3K vues61 diapositives
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon) par
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)Kyunghwan Kim
3.5K vues127 diapositives

Tendances(20)

[RLkorea] 각잡고 로봇팔 발표 par ashley ryu
[RLkorea] 각잡고 로봇팔 발표[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표
ashley ryu504 vues
안.전.제.일. 강화학습! par Dongmin Lee
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
Dongmin Lee5K vues
Dueling Network Architectures for Deep Reinforcement Learning par Yoonho Lee
Dueling Network Architectures for Deep Reinforcement LearningDueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning
Yoonho Lee479 vues
Introduction of Deep Reinforcement Learning par NAVER Engineering
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
NAVER Engineering5.3K vues
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon) par Kyunghwan Kim
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
Kyunghwan Kim3.5K vues
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 par NAVER D2
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
NAVER D244.9K vues
Safe Reinforcement Learning par Dongmin Lee
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement Learning
Dongmin Lee1.6K vues
Deep Reinforcement Learning: Q-Learning par Kai-Wen Zhao
Deep Reinforcement Learning: Q-LearningDeep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-Learning
Kai-Wen Zhao564 vues
Reinforcement Learning with Deep Energy-Based Policies par Sangwoo Mo
Reinforcement Learning with Deep Energy-Based PoliciesReinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based Policies
Sangwoo Mo790 vues
강화학습의 개요 par Dongmin Lee
강화학습의 개요강화학습의 개요
강화학습의 개요
Dongmin Lee7.2K vues
Natural Policy Gradient 직관적 접근 par Sooyoung Moon
Natural Policy Gradient 직관적 접근Natural Policy Gradient 직관적 접근
Natural Policy Gradient 직관적 접근
Sooyoung Moon2.8K vues
알아두면 쓸데있는 신기한 강화학습 NAVER 2017 par Taehoon Kim
알아두면 쓸데있는 신기한 강화학습 NAVER 2017알아두면 쓸데있는 신기한 강화학습 NAVER 2017
알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Taehoon Kim188.3K vues
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016 par Taehoon Kim
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
Taehoon Kim222.1K vues
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman par Peerasak C.
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex FridmanMIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL) by Lex Fridman
Peerasak C.2.2K vues
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN) par Euijin Jeong
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
Euijin Jeong1.7K vues
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies par Deep Learning JP
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
Deep Learning JP1.8K vues
Proximal Policy Optimization (Reinforcement Learning) par Thom Lane
Proximal Policy Optimization (Reinforcement Learning)Proximal Policy Optimization (Reinforcement Learning)
Proximal Policy Optimization (Reinforcement Learning)
Thom Lane930 vues

Similaire à 강화학습의 흐름도 Part 1

CS294-112 Lecture 06 par
CS294-112 Lecture 06CS294-112 Lecture 06
CS294-112 Lecture 06Gyubin Son
96 vues22 diapositives
ESM Mid term Review par
ESM Mid term ReviewESM Mid term Review
ESM Mid term ReviewMario Cho
346 vues90 diapositives
분산 강화학습 논문(DeepMind IMPALA) 구현 par
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현정주 김
4.7K vues42 diapositives
Reinforcement learning par
Reinforcement learningReinforcement learning
Reinforcement learningTae Young Lee
1.1K vues80 diapositives
Introduction to SAC(Soft Actor-Critic) par
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
4.2K vues99 diapositives
20170410 황영재 moving_average par
20170410 황영재 moving_average20170410 황영재 moving_average
20170410 황영재 moving_averagehwangyoungjae
457 vues11 diapositives

Similaire à 강화학습의 흐름도 Part 1(15)

CS294-112 Lecture 06 par Gyubin Son
CS294-112 Lecture 06CS294-112 Lecture 06
CS294-112 Lecture 06
Gyubin Son96 vues
ESM Mid term Review par Mario Cho
ESM Mid term ReviewESM Mid term Review
ESM Mid term Review
Mario Cho346 vues
분산 강화학습 논문(DeepMind IMPALA) 구현 par 정주 김
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현
정주 김4.7K vues
Introduction to SAC(Soft Actor-Critic) par Suhyun Cho
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho4.2K vues
20170410 황영재 moving_average par hwangyoungjae
20170410 황영재 moving_average20170410 황영재 moving_average
20170410 황영재 moving_average
hwangyoungjae457 vues
04. logistic regression ( 로지스틱 회귀 ) par Jeonghun Yoon
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
Jeonghun Yoon5K vues
[머가]Chap11 강화학습 par 종현 최
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습
종현 최501 vues
Q Learning과 CNN을 이용한 Object Localization par 홍배 김
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
홍배 김9.8K vues
Machine learning bysogood par S.Good Kim
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
S.Good Kim643 vues
Linear regression par 전 희천
Linear regressionLinear regression
Linear regression
전 희천259 vues

Plus de Dongmin Lee

Causal Confusion in Imitation Learning par
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
184 vues38 diapositives
Character Controllers using Motion VAEs par
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEsDongmin Lee
325 vues27 diapositives
Causal Confusion in Imitation Learning par
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
248 vues38 diapositives
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va... par
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Dongmin Lee
197 vues49 diapositives
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn... par
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...Dongmin Lee
395 vues25 diapositives
Exploration Strategies in Reinforcement Learning par
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningDongmin Lee
2.3K vues28 diapositives

Plus de Dongmin Lee(10)

Causal Confusion in Imitation Learning par Dongmin Lee
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
Dongmin Lee184 vues
Character Controllers using Motion VAEs par Dongmin Lee
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEs
Dongmin Lee325 vues
Causal Confusion in Imitation Learning par Dongmin Lee
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
Dongmin Lee248 vues
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va... par Dongmin Lee
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Dongmin Lee197 vues
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn... par Dongmin Lee
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
Dongmin Lee395 vues
Exploration Strategies in Reinforcement Learning par Dongmin Lee
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement Learning
Dongmin Lee2.3K vues
Let's do Inverse RL par Dongmin Lee
Let's do Inverse RLLet's do Inverse RL
Let's do Inverse RL
Dongmin Lee1.4K vues
모두를 위한 PG여행 가이드 par Dongmin Lee
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드
Dongmin Lee1K vues
Planning and Learning with Tabular Methods par Dongmin Lee
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular Methods
Dongmin Lee2K vues
Multi-armed Bandits par Dongmin Lee
Multi-armed BanditsMulti-armed Bandits
Multi-armed Bandits
Dongmin Lee3.6K vues

강화학습의 흐름도 Part 1

  • 1. 강화학습 알고리즘의 흐름도 Part 1 - 수식 중점 - 이동민
  • 2. Reference 이 자료는 위의 책을 바탕으로 만들었습니다. 출처 : 파이썬과 케라스로 배우는 강화학습 이미지 출저 : http://wikibook.co.kr/reinforcement-learning
  • 3. Index 1. MDP 2. 정책 3. 가치함수 4. 다이나믹 프로그래밍 강화학습 알고리즘의 흐름도 Part 1 - 수식 중점 -
  • 5. 1. MDP(Markov Decision Process) 𝑆𝑡 = s상태(State) 행동(Action) 𝐴 𝑡 = a 보상함수(Reward Function) 𝑅 𝑠 𝑎 = E[𝑅𝑡+1|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 상태 변환 확률 (State Transition Probability) 𝑃𝑠𝑠` 𝑎 = P[𝑆𝑡+1 = 𝑠`|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 할인율(Discount Factor) 𝛾 (단, 𝛾 ∈ [0,1])
  • 7. 2. 정책(Policy) 𝜋 𝑎 𝑠 = 𝑃[𝐴 𝑡 = 𝑎|𝑆𝑡 = 𝑠] 정책(Policy)의 정의
  • 9. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 10. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 11. 상태 가치함수(State Value Function) 𝑣 𝑠 = 𝐸[𝐺𝑡|𝑆𝑡 = 𝑠] 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ |𝑆𝑡 = 𝑠] - 상태 가치함수의 정의 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + 𝛾𝑅𝑡+3 + ⋯ )|𝑆𝑡 = 𝑠] - 앞으로 받을 보상으로 표현한 상태 가치함수 (𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯) - 앞으로 받을 보상에서 𝛾 로 묶어 표현한 상태 가치함수 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수
  • 12. 상태 가치함수(State Value Function) 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝐺𝑡+1|𝑆𝑡 = 𝑠] - 반환값(𝐺)으로 표현한 상태 가치함수 𝑣 𝑠 = 𝐸[𝑅𝑡+1 + 𝛾𝑣(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 가치함수로 표현한 상태 가치함수 𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] - 정책을 고려한 상태 가치함수 (𝑣 𝑆𝑡+1 = 𝐸[𝐺𝑡+1|𝑆𝑡+1 = 𝑠])
  • 13. 3. 가치함수(Value Function) 가치함수(Value Function) 상태 가치함수(State Value Function) 행동 가치함수(Action Value Function) 상태가 입력으로 들어오면 그 상태에서 앞으로 받을 보상의 합을 출력하는 함수 어떤 상태에서 각 행동에 대해 따로 가치함수를 만들어서 어떤 행동이 얼마나 좋은지 알려주는 함수
  • 14. 행동 가치함수(Action Value Function) 행동 가치함수(Action Value Function) = 큐함수(Q Function)
  • 15. 큐함수(Q Function) 𝑣 𝜋 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)𝑞 𝜋(𝑠, 𝑎) 𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑞 𝜋(𝑆𝑡+1, 𝐴 𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 큐함수의 정의 - 상태 가치함수와 큐함수 사이의 관계식
  • 17. 다이나믹 프로그래밍(Dynamic Programming, DP)이란? 다이나믹(Dynamic) 동적 메모리 (동적메모리란 메모리가 시간에 따라 변하는 메모리) 프로그래밍(Programming) 컴퓨터 프로그래밍이 아니라 계획을 하는 것으로서 여러 프로세스가 다단계로 이루어지는 것 + 한 마디로 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.
  • 18. 4. 다이나믹 프로그래밍(Dynamic Programming) 왜 다이나믹 프로그래밍이 강화학습에서 나올까요??
  • 19. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍은 이후에 강화학습의 근원이 되었기 때문입니다.
  • 20. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 21. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 22. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 23. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 24. 정책 평가(Policy Evaluation) 정책 평가 -> 벨만 기대 방정식 𝑣 𝜋 𝑠 = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠] 𝑣 𝜋 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾 ෍ 𝑠`∈𝑆 𝑃𝑠𝑠` 𝑎 𝑣 𝜋(𝑠`)) - 벨만 기대 방정식의 정의 - 계산 가능한 벨만 기대 방정식 𝑣 𝑘+1 𝑠 = ෍ 𝑎∈𝐴 𝜋(𝑎|𝑠)(𝑅𝑡+1 + 𝛾𝑣 𝑘 𝑠` ) - k와 k+1로 표현한 벨만 기대 방정식 (상태 변환 확률 = 1)
  • 25. 정책 이터레이션(Policy Iteration) 정책 이터레이션 = 벨만 기대 방정식을 이용 = 정책 + 가치함수 = 정책 + 상태 가치함수(기댓값) + 행동 가치함수(=큐함수, argmax) = 정책 평가(Policy Evaluation) + 탐욕 정책 발전(Greedy Policy Improvement)
  • 26. 탐욕 정책 발전(Greedy Policy Improvement) 탐욕 정책 발전 -> 큐함수(argmax) 큐함수의 정의 계산 가능한 형태로 고친 큐함수 (상태 변환 확률 = 1) - 탐욕 정책 발전으로 얻은 새로운 정책 𝑞 𝜋(𝑠, 𝑎) = 𝐸 𝜋[𝑅𝑡+1 + 𝛾𝑣 𝜋(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 𝑞 𝜋(𝑠, 𝑎) = 𝑅 𝑠 𝑎 + 𝛾𝑣 𝜋(𝑠`) 𝜋` 𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎∈𝐴 𝑞 𝜋(𝑠, 𝑎)
  • 27. 4. 다이나믹 프로그래밍(Dynamic Programming) 다이나믹 프로그래밍(DP) 정책 이터레이션(Policy Iteration) 가치 이터레이션(Value Iteration) 다이나믹 프로그래밍으로 벨만 기대 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것 다이나믹 프로그래밍으로 벨만 최적 방정식을 이용하여 순차적인 행동 결정 문제를 푸는 것
  • 28. 가치 이터레이션(Value Iteration) 가치 이터레이션 = 벨만 최적 방정식을 이용 = 행동 가치함수(=큐함수, max) 𝑞∗(𝑠, 𝑎) = 𝐸[𝑅𝑡+1 + 𝛾 max 𝑎` 𝑞∗(𝑆𝑡+1, 𝑎`) |𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] 𝑣∗ 𝑠 = max 𝑎 𝐸[𝑅𝑡+1 + 𝛾𝑣∗(𝑆𝑡+1)|𝑆𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] - 벨만 최적 방정식의 정의 - 큐함수로 표현한 벨만 최적 방정식 𝑣 𝑘+1(𝑠) = max 𝑎∈𝐴 (𝑅 𝑠 𝑎 + 𝛾𝑣 𝑘 𝑠` ) k와 k+1로 표현한 계산 가능한 벨만 최적 방정식 (상태 변환 확률 = 1)