SlideShare une entreprise Scribd logo
POSTECH 인공지능대학원
CoCEL Lab | AI팀
석사과정 김장원
Control as Probabilistic Inference
: Maximum Entropy
RL
그래프 모델과 강화학습
█ 강화학습은 상태, 행동, 그리고 다음 상태로의 전이라는
일련의 시퀀스로 표현할 수 있습니다
█ 따라서 강화학습을 다이나믹 프로그래밍의 관점이 아닌 확
률적 그래픽 모델 (Probabilistic graphical model)의 추론 문제
로 바라보면 어떨까요?
The Standard Reinforcement Learning Framework
█ 일반적인 강화학습 프레임워크에서는 Optimal 정책을 복구하는 것을 목
표로 합니다.
이 때 정책은 보통 𝜃로 매개화된 행동(𝑎)에 대해서 상태와 매개변수를 건
으로 가지는 조건부 분포로써 표현됩니다. → 𝝅(𝒂𝒕|𝒔𝒕, 𝜽)
█ 이러한 Optimal 정책을 찾는 문제는 아래와 같은 매개변수
를 찾는 것과 같습니다.
█ 이전 슬라이드에서 𝜃를 구하는 최적화 문제에서 기댓값은
정책에서 나온 trajectory 분포에 취해집니다. 즉,
█ 이제 우리가 해야 할 다음 질문은 다음과 같습니다.
“가장 가능성 높은 trajectory과 Optimal 정책으로부터 나온 trajectory가 같도록 하는
확률적 그래픽 추론 모델 (Probabilistic graphical model)을 어떻게 만들 수 있을까? “
The Standard Reinforcement Learning Framework
█ 먼저 Control Problem을 Graphical Model로 이식하기 위해, 상태 행동 그리고
다음 상태에 대한 관계를 아래와 같이 표현할 수 있습니다.
The Graphical Model
█ 그러나 위 모델로는 Control 문제를 풀기에 충분하지 않습니다.
이는 Reward에 대한 정보가 없기 때문입니다.
█ 따라서 리워드와 관련이 있고 𝒪𝑡로 표시되는 새로운 변수를 추가하겠습니다.
The Graphical Model
▸ 앞으로 𝒪𝑡를 ‘최적성 변수’라고 말하겠습니다.
▸ 𝒪𝑡 는 𝒪𝑡 = 1이면 step 𝑡에서 최적이고 𝒪𝑡 = 0 이면 최적이 아님을 나태내는
binary 변수 입니다.
█ 우리는 𝒪𝑡를 지수의 승수로 리워드 값을 가지는 분포로 표현하겠습니다. 즉,
aka. 1) Boltzmann distribution
2) Energy distribution
최적성을 soft하게 표현
█ 이 최적성 변수를 포함한 그래프 모델은 아래와 같습니다.
The Graphical Model
Note1: 우리가 아는 HMM 모델로서 표현이 되었습니다!
Note2: 위 그래프 모델에서 explicit하게 정책은 언급되지 않았습니다.
█ 이제 𝒪𝑡 = 1 for all 𝑡 ∈ {1, … , 𝑇} 일 때 (모든 상태에서 최적의 행동을 하였을 때)
trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 구해봅시다.
The Graphical Model
█ 환경이 deterministic하다면, 위 결과는 굉장히 직관적입니다.
→즉, 보상의 합이 높은 trajectory일 수록 발생할 확률이 높습니다.
█ 우리의 목표는 앞서 살펴본 trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 가지도록 trajectory를 만드
는 정책을 찾는 것입니다. (이 정책은 최적 정책이라고 할 수 있겠죠?)
The Graphical Model
█ 우리가 세운 확률적 그래프 모델에서 최적 정책은 아래와 같이 쓸 수 있습니다.
█ 이 정책은 앞에서 본 표준 강화학습에서의 최적 정책 으로 비유할 수 있겠습니다.
█ 그러나 이 두 정책은 다릅니다.
▸ 그래프 모델에서 추론하는 최적 정책은 매개변수 𝜃와 독립된 정책입니다.
▸ 나중에 알아보겠지만, 두 정책이 최적화하는 objective가 조금 다릅니다.
= 𝑝(𝑎𝑡|𝑠𝑡, 𝒪1:𝑇) by 마르코프 성질
█ HMM-style 그래프 모델에서의 추론을 어떻게 하면 좋을까요?
Policy Search as Probabilistic Inference
→전형적인 Forward-Backward 추론 알고리즘을 사용해봅시다!
█ 우리가 추론해야 할 최적 정책은 임을 기억합시다.
█ backward 𝑚𝑒𝑠𝑠𝑎𝑔𝑒 𝛽(𝑠𝑡, 𝑎𝑡)와 𝛽(𝑠𝑡)를 아래와 같이 정의하겠습니다.
현 상태-행동 쌍(𝑠𝑡, 𝑎𝑡)을 가질 때, 앞으로의 trajectory가 최적일 확률
현 상태(𝑠𝑡)일 때, 앞으로의 trajectory가 최적일 확률
을 추론하기 위해 먼저 backward message를 사용해봅시다.
이
Note: 본 ppt 자료에서는 forward message를 따로 계산하지는 않습니다.
그러나 forward message는 inverse RL의 핵심적인 내용을 담고 있습니다.
Policy Search as Probabilistic Inference
█ 𝛽𝑡(𝑠𝑡, 𝑎𝑡)와 𝛽𝑡(𝑠𝑡) 를 살펴보겠습니다.
= exp(𝑟(𝑠𝑡, 𝑎𝑡))
Dynamics
?
action prior
Without loss of generality, Action prior를 균등분포
(𝑝 𝑎𝑡 𝑠𝑡 =
1
|𝒜|
)라고 가정할 수 있습니다.
Policy Search as Probabilistic Inference
█ 이제 recursive 하게 backward message를 구할 수 있게 되었습니다!
단 Terminal 상태 T에 대해,
뒤에서부터(backward) 연쇄적으로 계산
Policy Search as Probabilistic Inference
█ 이제 우리의 목표인 최적 정책을 구해봅시다.
Bayes’ rule
Flipped by using Bayes’ rule
최적 제어의
potential 함수!
는 균등분포라고 가정했으므로, 상수 취급
Policy Search as Probabilistic Inference
█ backward message 𝛽가 가지는 의미를 좀 더 분명하게 파악하기 위해
로그 스케일을 활용하여 다음과 같이 Q와 V를 정의해봅시다.
그런데 이므로,
의 관계가 있음을 알 수 있습니다.
Policy Search as Probabilistic Inference
Dynamics이 deterministic 하다면,
를 만족합니다.
이제 Q와 V의 관계를 조금 더 들여다 봅시다.
이는 standard RL에서의 Bellman backup과 정확히 일치합니다!
입니다.
균등분포라고 가정
이므로,
Policy Search as Probabilistic Inference
█ Soft-max Operation
Soft-max op.
지수승에 대한 평균
을 다시 log
이런 분포에서 평
균한 것과 비슷한
효과를 보여줌!
Interim Check
█ 지금까지 정리
1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환
2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최
적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론.
그리고,
3) 최적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇)) 도출.
Interim Check
4) Backward message(𝛽) 로그 스케일로 관찰
5) Deterministic한 환경과 Stochastic한 환경 비교
결정론적 환경:
확률론적 환경:
Optimistic transition
Standard RL에서의 Policy iteration과 유사하다.
Let’s do variational inference to fix it.
Policy Search as Probabilistic Inference
앞서 확률적 그래프 모델(PGM) 관점에서의 최적 정책을 추론해보았습니다.
그런데 이 최적 정책은 Standard RL에서의 최적 정책과 어떤 차이가 있을
까요?
𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 =
𝛽𝑡(𝑠𝑡, 𝑎𝑡)
𝛽𝑡(𝑠𝑡)
= exp 𝑄 𝑠𝑡, 𝑎𝑡 − 𝑉 𝑠𝑡
VS.
𝜋 𝑎𝑡 𝑠𝑡𝜃∗ 𝑤ℎ𝑒𝑟𝑒,
PGM 관점에서의 최적 정책
Standard RL 프레임워크 에서
의 최적 정책
Which Objective does This Inference Procedure Optimize?
Recall;
먼저 결정론적 환경에서 생각해봅시다.
그렇다면 정책으로부터 나온 trajectory의 분포 𝑝(𝜏)는 다음과 같습니다.
근사: 𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 ≈ 𝜋(𝑎𝑡|𝑠𝑡)
①
②
Which Objective does This Inference Procedure Optimize?
Exact Inference
𝑝 𝜏 와 𝑝(𝜏)를 같도록 만듭시다!
최적성변수가
모두 1일 때의
trajectory 확률
분포.
즉, 최적
trajectory의 확
률 분포.
정책 𝜋(𝑎𝑡|𝑠𝑡) (𝑝(𝑎𝑡|𝑠𝑡,𝒪𝑡:𝑇)의 근사)
로부터 나오는 trajectory의 확률 분포
How?
KL-divergence!
Policy에서
유도된
trajectory
𝑝 𝜏 𝒪1:𝑇
PGM을 바탕으로 유도
된 trajectory 분포
Which Objective does This Inference Procedure Optimize?
Entropy bonus!
Standard RL +
Which Objective does This Inference Procedure Optimize?
Stochastic한 환경에서는…?
이 결과는 deterministic 환경에서의 objective 처럼 단순히 리워드에 엔트로피를 더한 것이 아닙니다.
이는 계산하기 어려울 뿐더러, 사실 optimistic한 행동을 야기하게 됩니다.
Optimistic한 행동은 보통 매우 좋지 않은 결과를 낳게 됩니다.
이를 어떻게 해결해야 할까요?
→ Variational Inference!
위 objective를 직접적으로 최대화 하려고
하지 말고, 어떤 Lower bound를 찾아서 이
를 maximization 해보자.
Alternative Model Formulations
■ 생각해볼 수 있는 수정사항들
1) Discounted reward
→ 일반적인 RL 프레임워크에서 사용하는 할인된 리워드 전략을 사용하더라도 영향을
주지 않습니다.
2) 양수인 reward?
→ exp(𝑟(𝑠, 𝑎))는 potential function이므로 일반성을 잃지 않습니다.
exp(𝑟(𝑠, 𝑎) − 𝑟𝑚𝑎𝑥) = 𝑎 ⋅ exp(𝑟(𝑠, 𝑎))
3) Temperature 변수의 도입
마찬가지로 exp(𝑟(𝑠, 𝑎))는 potential function이므로
Φ 𝑠, 𝑎 = p 𝒪 = 1 𝑠, 𝑎 =
1
𝛼
exp(𝑟(𝑠, 𝑎))로 표현해도 일반성을 잃지 않습니다. 이 때의 objective는 리워
드와 엔트로피에 𝛼 값을 곱한 값의 총 합의 기댓값으로 표현됩니다. 𝜶가 0으로 가까워질수록 Standard
RL의 objective에 가까워집니다.
Alternative Model Formulations
4) Non-uniform action prior?
Action prior가 non-uniform 하더라도, action-prior에 대한 정보가 리워드 항에 포함될 수 있기 때문에, 어
떠한 action prior여도 상관이 없습니다. 즉 uniform distribution이라고 가정해도 상관이 없습니다.
→action prior를 고려한 최적 trajectory의 확률 분포 𝑝(𝜏)
출처:https://www.youtube.com/watch?v=cnXzQY5Ovlw&list=PLoZgVqqHOumTqxIhcdcpOAJOOimrRCGZn&index=20
[카네기 멜론 대학 PGM 오픈 강의 中 발췌]
참고: 사실 inverse RL 입장에서는 전문가 trajectory가 주어지
고, 이 리워드를 역으로 추론하고자 합니다.
CRF: 조건부 무작위장
(Conditional Random Field)
Interim Check
█ 지금까지의 결론
1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환.
2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최
적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론.
3) 결정론적 환경에서 이 최적정책이 최대화 하고 있는 값은?
4) 환경론적 환경에는…?
Inference in Stochastic Environments
█ Recall;
확률론적 환경:
Optimistic transition
Objective:
왜 optimistic한 행동을 하게 되는 걸까요?
그래프 모델의 관점에서 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡, 𝒪𝑡:𝑇 와 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 이 다르기 때문.
Inference in Stochastic Environments
방법1: Fix the dynamics
PGM에서 posterior dynamics 분포와 참(true) dynamics 분포를 강제로 일치시키게 합니다. 즉,
이렇게 세팅하고 다시 objective를 구해보면, 결정론적인 환경일 때와 같은 결과가 도출됩니다.
Inference in Stochastic Environments
방법2: Variational Inference
사실 dynamics를 강제적으로 고정시키는 방법은 것은 뭔가 찝찝함이 있습니다.
따라서 좀 더 수학적인 접근을 생각해 볼 수 있습니다.
먼저 True Dynamics를 가지는 제안분포 𝑞를 정의합시다.
Only new thing
새로 제안된 정책
으로 사용됨.
Same initial state
and dynamics dist.
우리가 편하게 다룰 수 있는(혹은 다루고 싶은) 제안분포를 활용한다...?
→ 변분 추론을 하면 되겠군요!
Inference in Stochastic Environments
한편 우리는 Variational Inference의 하한이 다음과 같다는 사실을 알고 있습니다.
log 𝑃 𝑥 ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝑥, 𝑧 − log 𝑞(𝑧)]
그 유명한 ELBO ..!
𝑥를 𝓞𝟏:𝑻 그리고 𝑧를 𝒔𝟏:𝑻, 𝒂𝟏:𝑻 ~𝑞 𝑠1 , 𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 , 𝑞(𝑎𝑡|𝑠𝑡)라고 한다면,
log 𝑃(𝒪1:𝑇) ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝒪1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇 − log 𝑞(𝑠1:𝑇, 𝑎1:𝑇)]
임을 얻습니다.
이제 와 를 대입하면 결국
임을 확인할 수 있습니다.
확률론적 환경일지라도 같은 objective
를 증가시키면 됩니다!
이는 후에 살펴보겠지만 Optimistic
Transition 문제로 고통받지 않게 하는
이점도 있습니다.
Maximum Entropy Reinforcement Learning
█ PGM으로 얻은 결과를 한번 다이나믹 프로그래밍 알고리즘 관점으로 살펴봅시다.
→앞서 살펴본 backward message를 다이나믹 프로그래밍 알고리즘으로 구해봅시다.
먼저 가장 뒷부분인 종단 상태부터 시작합니다.
이때 KL 거리를 최소화하는 정책은 아래와 같습니다.
정규화 상수
exp(𝑉(𝑠𝑇))=log exp(𝑟(𝑠𝑇, 𝑎𝑇))
KL-divergence의 정의에
따라 등식이 성립함.
→두 분포가 같을 때
Maximum Entropy Reinforcement Learning
종단 상태(backward message의 initial condition)를 계산했으니, 이제 연쇄적인 방법으로 쭉 표현할 수 있습니다.
먼저 우리가 Q와 V를 다음과 같이 정의한다면,
시간 𝑡에 아래와 같은 등식이 성립합니다.
SAC논문에서 주구장창 봐왔던 바로 그 식!
이 때의 최적 정책은 다음과 같습니다.
Maximum Entropy Reinforcement Learning
최종 정리
Note: Optimistic transition이 아님!
다이나믹 프로그
래밍으로 계산
Q와 V를 계산하였으면, 최적
정책을 정할 수 있다.
이 최적 정책이 최대화 하고자 하는 objective는 리워드와 엔트로피의 합입니다. 즉,
는 를 따라가고자 근사한 확률 분포 (정책)
= 𝑎𝑟𝑔𝑚𝑖𝑛𝜋𝐷𝐾𝐿(𝜋(𝑎𝑡|𝑠𝑡) ∥
exp(𝑄(𝑠𝑡, 𝑎𝑡))
exp(𝑄(𝑠𝑡, 𝑎𝑡))
)
Approximate Inference with Function Approximation
이제까지 살펴본 Maximum Entropy RL 프레임워크
를 이용한 알고리즘에 대해 살펴보겠습니다.
1. Maximum Entropy Policy Gradient
2. Maximum Entropy Actor-Critic (Soft Actor-Critic)
3. Maximum Entropy Q-Learning (Soft Q-Learning)
Approximate Inference with Function Approximation
Actor-
Critic
Policy
Gradient
Value-
Based
Policy Gradient:
Objective를 직접적으
로 최적화하는 방법
Value-Based:
Value function 혹은 Q
function을 평가하는
방법 (explicit 한 정책
은 없으며, V혹은Q값을
바탕으로 정책이 유도
된다.(ex.𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦))
Actor-Critic:
Explicit한 정책을 사용
하며 동시에 V혹은 Q
값 역시 활용하여
objective를 최적화한
다.
배경지식
Maximum Entropy Policy Gradient
Maximum Entropy Policy Gradient
: 리워드와 엔트로피의 합인 objective를 이용하여 policy gradient하는 방법입니다.
Maximum Entropy Policy Gradient
∇𝜃𝐽 𝜃 = ∇𝜃𝐸𝜏~𝑞𝜃(𝜏)
𝑡=1
𝑇
[𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]
Let 𝑞𝜃 𝜏 = 𝑞(𝑠1) 𝑡=1
𝑇
𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡)
Same with dynamics
Then
= ∇𝜃
𝜏
𝑞𝜃(𝜏)
𝑡=1
𝑇
[𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]
=
𝜏
∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
[𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]
=
𝜏
[∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]]
Objective의 gradient를 유도해보겠습니다.
분배법칙
Maximum Entropy Policy Gradient
𝜏
[∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]]
=
𝜏
[𝑞𝜃 𝜏 ∇𝜃 log 𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − 𝑞𝜃(𝜏)∇𝜃 log 𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] − 𝑞𝜃 𝜏
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ]
Log-likelihood trick 미분법칙 + Log-likelihood trick
=
𝜏
𝑞𝜃 𝜏 (∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 −
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )
= 𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 −
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )]
Maximum Entropy Policy Gradient
그런데 𝑞𝜃 𝜏 = 𝑞(𝑠1)
𝑡=1
𝑇
𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡) 이므로, ∇𝜃 log 𝑞𝜃 𝜏 =
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡)
따라서
입니다.
𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 −
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )]
= 𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡)
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ −
𝑡′=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )]
Same with dynamics
Maximum Entropy Policy Gradient
𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡)
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ −
𝑡′=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )]
= 𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)
= 𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)
∵ causality
=
𝑡=1
𝑇
𝐸𝜏~𝑞𝜃 𝜏 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
Maximum Entropy Policy Gradient
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
따라서 objective의 gradient는 다음과 같습니다.
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
Maximum Entropy Policy Gradient
Interesting Relationship to Q-learning
앞서 구한 objective의 gradient를 다시 살펴보겠습니다.
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
=
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (𝑟 𝑠𝑡, 𝑎𝑡 +
𝑡′=𝑡+1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ − log 𝑞𝜃(𝑎𝑡|𝑠𝑡) − 1)]
𝑠𝑜𝑓𝑡 𝑚𝑎𝑥𝑎𝑡+1
𝑄(𝑠𝑡+1, 𝑎𝑡+1 )
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃𝑄(𝑎𝑡, 𝑠𝑡)(𝑟 𝑠𝑡, 𝑎𝑡 + 𝑠𝑜𝑓𝑡 max
𝑎𝑡+1
𝑄 𝑠𝑡+1, 𝑎𝑡+1 − 𝑄(𝑠𝑡, 𝑎𝑡)]
baseline
Baseline을 0으
로 놓으면,
후에 살펴 볼 Soft Q-learning과 같아집니다!
아시다시피 baseline은 미분의 방향에 영향
을 주지 않습니다. 다만 정도에 따라 분산을
줄일 수 있습니다.
Maximum Entropy Actor-Critic (Soft Actor-Critic)
앞에서 살펴본 Maximum Entropy Policy Gradient 방법과 다르게 ELBO를 직접적으로 미분하
여 최적화하는 것이 아니라 message passing 방법을 이용해보도록 하겠습니다.
자연스럽게 다이나믹 프로그래밍 방법이
등장하겠죠?
먼저 우리는 다음을 알고 있습니다.
Maximum Entropy Actor-Critic (Soft Actor-Critic)
Q함수와 V함수는 다음의 error objectives를 최소
화 함으로써 얻을 수 있습니다.
자연스럽게 유도됩
니다.
Maximum Entropy Actor-Critic (Soft Actor-Critic)
정책은 ELBO를 maximization하는 방향으로 학습이 가능합니다.
SAC 논문에서는 정책 objective
를 KL거리로 표현하고 있습니다.
Maximum Entropy Q-Learning (Soft Q-Learning)
█ Soft Q-Learning 에서는 Q함수만 fitting하여 사용하게 됩니다.
임을 이용하면,
Parameterized Q 함수 는 아래처럼 fitting 할 수 있습니다.
L2 error로 부터 유도됩니다.
Softmax 연산
Step
size
Advantages of Maximum Entropy RL)
█ Maximum Entropy RL은 탐험에 있어 효율적입니다.
https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/
Advantages of Maximum Entropy RL
█ Maximum Entropy RL은 강인한 학습 결과를 보여줍니다.
다양한 환경을 탐험하도록 장려하기 때문에!
https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/
Thank
You

Contenu connexe

Tendances

Trust Region Policy Optimization, Schulman et al, 2015
Trust Region Policy Optimization, Schulman et al, 2015Trust Region Policy Optimization, Schulman et al, 2015
Trust Region Policy Optimization, Schulman et al, 2015
Chris Ohk
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
YosukeAkasaka
 
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
Deep Learning JP
 
Wasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 IWasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 I
Sungbin Lim
 
ホモトピー型理論入門
ホモトピー型理論入門ホモトピー型理論入門
ホモトピー型理論入門
k h
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
Jun Okumura
 
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic ModelCVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
jaypi Ko
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
Hirotaka Hachiya
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
 
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
Tomoki Koriyama
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門irrrrr
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Takahiro Kubo
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
Ohsawa Goodfellow
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Kenshi Abe
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
Kenshi Abe
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
nishio
 

Tendances (20)

Trust Region Policy Optimization, Schulman et al, 2015
Trust Region Policy Optimization, Schulman et al, 2015Trust Region Policy Optimization, Schulman et al, 2015
Trust Region Policy Optimization, Schulman et al, 2015
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
 
Wasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 IWasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 I
 
ホモトピー型理論入門
ホモトピー型理論入門ホモトピー型理論入門
ホモトピー型理論入門
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
 
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic ModelCVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
LDA入門
LDA入門LDA入門
LDA入門
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 

Similaire à Control as Inference.pptx

강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
Dongmin Lee
 
Lecture 2: Supervised Learning
Lecture 2: Supervised LearningLecture 2: Supervised Learning
Lecture 2: Supervised Learning
Sang Jun Lee
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
Jeonghun Yoon
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
태영 정
 
Guided policy search
Guided policy searchGuided policy search
Guided policy search
Jaehyeon Park
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)
Jeonghun Yoon
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theory
Jeonghun Yoon
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
강민국 강민국
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
Jeonghun Yoon
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
Jeonghun Yoon
 
0207 1 gradient
0207 1 gradient0207 1 gradient
0207 1 gradient
Jeonghun Yoon
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term Review
Mario Cho
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
Sang Jun Lee
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1
Dongmin Lee
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction
Taehoon Kim
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
SANG WON PARK
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
S.Good Kim
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)
Kiho Hong
 
0314 1 anova
0314 1 anova0314 1 anova
0314 1 anova
Jeonghun Yoon
 

Similaire à Control as Inference.pptx (20)

강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
 
Lecture 2: Supervised Learning
Lecture 2: Supervised LearningLecture 2: Supervised Learning
Lecture 2: Supervised Learning
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
 
Guided policy search
Guided policy searchGuided policy search
Guided policy search
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theory
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
 
0207 1 gradient
0207 1 gradient0207 1 gradient
0207 1 gradient
 
ESM Mid term Review
ESM Mid term ReviewESM Mid term Review
ESM Mid term Review
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)
 
0314 1 anova
0314 1 anova0314 1 anova
0314 1 anova
 

Control as Inference.pptx

  • 1. POSTECH 인공지능대학원 CoCEL Lab | AI팀 석사과정 김장원 Control as Probabilistic Inference : Maximum Entropy RL
  • 2. 그래프 모델과 강화학습 █ 강화학습은 상태, 행동, 그리고 다음 상태로의 전이라는 일련의 시퀀스로 표현할 수 있습니다 █ 따라서 강화학습을 다이나믹 프로그래밍의 관점이 아닌 확 률적 그래픽 모델 (Probabilistic graphical model)의 추론 문제 로 바라보면 어떨까요?
  • 3. The Standard Reinforcement Learning Framework █ 일반적인 강화학습 프레임워크에서는 Optimal 정책을 복구하는 것을 목 표로 합니다. 이 때 정책은 보통 𝜃로 매개화된 행동(𝑎)에 대해서 상태와 매개변수를 건 으로 가지는 조건부 분포로써 표현됩니다. → 𝝅(𝒂𝒕|𝒔𝒕, 𝜽) █ 이러한 Optimal 정책을 찾는 문제는 아래와 같은 매개변수 를 찾는 것과 같습니다.
  • 4. █ 이전 슬라이드에서 𝜃를 구하는 최적화 문제에서 기댓값은 정책에서 나온 trajectory 분포에 취해집니다. 즉, █ 이제 우리가 해야 할 다음 질문은 다음과 같습니다. “가장 가능성 높은 trajectory과 Optimal 정책으로부터 나온 trajectory가 같도록 하는 확률적 그래픽 추론 모델 (Probabilistic graphical model)을 어떻게 만들 수 있을까? “ The Standard Reinforcement Learning Framework
  • 5. █ 먼저 Control Problem을 Graphical Model로 이식하기 위해, 상태 행동 그리고 다음 상태에 대한 관계를 아래와 같이 표현할 수 있습니다. The Graphical Model █ 그러나 위 모델로는 Control 문제를 풀기에 충분하지 않습니다. 이는 Reward에 대한 정보가 없기 때문입니다.
  • 6. █ 따라서 리워드와 관련이 있고 𝒪𝑡로 표시되는 새로운 변수를 추가하겠습니다. The Graphical Model ▸ 앞으로 𝒪𝑡를 ‘최적성 변수’라고 말하겠습니다. ▸ 𝒪𝑡 는 𝒪𝑡 = 1이면 step 𝑡에서 최적이고 𝒪𝑡 = 0 이면 최적이 아님을 나태내는 binary 변수 입니다. █ 우리는 𝒪𝑡를 지수의 승수로 리워드 값을 가지는 분포로 표현하겠습니다. 즉, aka. 1) Boltzmann distribution 2) Energy distribution 최적성을 soft하게 표현
  • 7. █ 이 최적성 변수를 포함한 그래프 모델은 아래와 같습니다. The Graphical Model Note1: 우리가 아는 HMM 모델로서 표현이 되었습니다! Note2: 위 그래프 모델에서 explicit하게 정책은 언급되지 않았습니다.
  • 8. █ 이제 𝒪𝑡 = 1 for all 𝑡 ∈ {1, … , 𝑇} 일 때 (모든 상태에서 최적의 행동을 하였을 때) trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 구해봅시다. The Graphical Model █ 환경이 deterministic하다면, 위 결과는 굉장히 직관적입니다. →즉, 보상의 합이 높은 trajectory일 수록 발생할 확률이 높습니다.
  • 9. █ 우리의 목표는 앞서 살펴본 trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 가지도록 trajectory를 만드 는 정책을 찾는 것입니다. (이 정책은 최적 정책이라고 할 수 있겠죠?) The Graphical Model █ 우리가 세운 확률적 그래프 모델에서 최적 정책은 아래와 같이 쓸 수 있습니다. █ 이 정책은 앞에서 본 표준 강화학습에서의 최적 정책 으로 비유할 수 있겠습니다. █ 그러나 이 두 정책은 다릅니다. ▸ 그래프 모델에서 추론하는 최적 정책은 매개변수 𝜃와 독립된 정책입니다. ▸ 나중에 알아보겠지만, 두 정책이 최적화하는 objective가 조금 다릅니다. = 𝑝(𝑎𝑡|𝑠𝑡, 𝒪1:𝑇) by 마르코프 성질
  • 10. █ HMM-style 그래프 모델에서의 추론을 어떻게 하면 좋을까요? Policy Search as Probabilistic Inference →전형적인 Forward-Backward 추론 알고리즘을 사용해봅시다! █ 우리가 추론해야 할 최적 정책은 임을 기억합시다. █ backward 𝑚𝑒𝑠𝑠𝑎𝑔𝑒 𝛽(𝑠𝑡, 𝑎𝑡)와 𝛽(𝑠𝑡)를 아래와 같이 정의하겠습니다. 현 상태-행동 쌍(𝑠𝑡, 𝑎𝑡)을 가질 때, 앞으로의 trajectory가 최적일 확률 현 상태(𝑠𝑡)일 때, 앞으로의 trajectory가 최적일 확률 을 추론하기 위해 먼저 backward message를 사용해봅시다. 이 Note: 본 ppt 자료에서는 forward message를 따로 계산하지는 않습니다. 그러나 forward message는 inverse RL의 핵심적인 내용을 담고 있습니다.
  • 11. Policy Search as Probabilistic Inference █ 𝛽𝑡(𝑠𝑡, 𝑎𝑡)와 𝛽𝑡(𝑠𝑡) 를 살펴보겠습니다. = exp(𝑟(𝑠𝑡, 𝑎𝑡)) Dynamics ? action prior Without loss of generality, Action prior를 균등분포 (𝑝 𝑎𝑡 𝑠𝑡 = 1 |𝒜| )라고 가정할 수 있습니다.
  • 12. Policy Search as Probabilistic Inference █ 이제 recursive 하게 backward message를 구할 수 있게 되었습니다! 단 Terminal 상태 T에 대해, 뒤에서부터(backward) 연쇄적으로 계산
  • 13. Policy Search as Probabilistic Inference █ 이제 우리의 목표인 최적 정책을 구해봅시다. Bayes’ rule Flipped by using Bayes’ rule 최적 제어의 potential 함수! 는 균등분포라고 가정했으므로, 상수 취급
  • 14. Policy Search as Probabilistic Inference █ backward message 𝛽가 가지는 의미를 좀 더 분명하게 파악하기 위해 로그 스케일을 활용하여 다음과 같이 Q와 V를 정의해봅시다. 그런데 이므로, 의 관계가 있음을 알 수 있습니다.
  • 15. Policy Search as Probabilistic Inference Dynamics이 deterministic 하다면, 를 만족합니다. 이제 Q와 V의 관계를 조금 더 들여다 봅시다. 이는 standard RL에서의 Bellman backup과 정확히 일치합니다! 입니다. 균등분포라고 가정 이므로,
  • 16. Policy Search as Probabilistic Inference █ Soft-max Operation Soft-max op. 지수승에 대한 평균 을 다시 log 이런 분포에서 평 균한 것과 비슷한 효과를 보여줌!
  • 17. Interim Check █ 지금까지 정리 1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환 2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최 적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론. 그리고, 3) 최적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇)) 도출.
  • 18. Interim Check 4) Backward message(𝛽) 로그 스케일로 관찰 5) Deterministic한 환경과 Stochastic한 환경 비교 결정론적 환경: 확률론적 환경: Optimistic transition Standard RL에서의 Policy iteration과 유사하다. Let’s do variational inference to fix it.
  • 19. Policy Search as Probabilistic Inference 앞서 확률적 그래프 모델(PGM) 관점에서의 최적 정책을 추론해보았습니다. 그런데 이 최적 정책은 Standard RL에서의 최적 정책과 어떤 차이가 있을 까요? 𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 = 𝛽𝑡(𝑠𝑡, 𝑎𝑡) 𝛽𝑡(𝑠𝑡) = exp 𝑄 𝑠𝑡, 𝑎𝑡 − 𝑉 𝑠𝑡 VS. 𝜋 𝑎𝑡 𝑠𝑡𝜃∗ 𝑤ℎ𝑒𝑟𝑒, PGM 관점에서의 최적 정책 Standard RL 프레임워크 에서 의 최적 정책
  • 20. Which Objective does This Inference Procedure Optimize? Recall; 먼저 결정론적 환경에서 생각해봅시다. 그렇다면 정책으로부터 나온 trajectory의 분포 𝑝(𝜏)는 다음과 같습니다. 근사: 𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 ≈ 𝜋(𝑎𝑡|𝑠𝑡) ① ②
  • 21. Which Objective does This Inference Procedure Optimize? Exact Inference 𝑝 𝜏 와 𝑝(𝜏)를 같도록 만듭시다! 최적성변수가 모두 1일 때의 trajectory 확률 분포. 즉, 최적 trajectory의 확 률 분포. 정책 𝜋(𝑎𝑡|𝑠𝑡) (𝑝(𝑎𝑡|𝑠𝑡,𝒪𝑡:𝑇)의 근사) 로부터 나오는 trajectory의 확률 분포 How? KL-divergence! Policy에서 유도된 trajectory 𝑝 𝜏 𝒪1:𝑇 PGM을 바탕으로 유도 된 trajectory 분포
  • 22. Which Objective does This Inference Procedure Optimize? Entropy bonus! Standard RL +
  • 23. Which Objective does This Inference Procedure Optimize? Stochastic한 환경에서는…? 이 결과는 deterministic 환경에서의 objective 처럼 단순히 리워드에 엔트로피를 더한 것이 아닙니다. 이는 계산하기 어려울 뿐더러, 사실 optimistic한 행동을 야기하게 됩니다. Optimistic한 행동은 보통 매우 좋지 않은 결과를 낳게 됩니다. 이를 어떻게 해결해야 할까요? → Variational Inference! 위 objective를 직접적으로 최대화 하려고 하지 말고, 어떤 Lower bound를 찾아서 이 를 maximization 해보자.
  • 24. Alternative Model Formulations ■ 생각해볼 수 있는 수정사항들 1) Discounted reward → 일반적인 RL 프레임워크에서 사용하는 할인된 리워드 전략을 사용하더라도 영향을 주지 않습니다. 2) 양수인 reward? → exp(𝑟(𝑠, 𝑎))는 potential function이므로 일반성을 잃지 않습니다. exp(𝑟(𝑠, 𝑎) − 𝑟𝑚𝑎𝑥) = 𝑎 ⋅ exp(𝑟(𝑠, 𝑎)) 3) Temperature 변수의 도입 마찬가지로 exp(𝑟(𝑠, 𝑎))는 potential function이므로 Φ 𝑠, 𝑎 = p 𝒪 = 1 𝑠, 𝑎 = 1 𝛼 exp(𝑟(𝑠, 𝑎))로 표현해도 일반성을 잃지 않습니다. 이 때의 objective는 리워 드와 엔트로피에 𝛼 값을 곱한 값의 총 합의 기댓값으로 표현됩니다. 𝜶가 0으로 가까워질수록 Standard RL의 objective에 가까워집니다.
  • 25. Alternative Model Formulations 4) Non-uniform action prior? Action prior가 non-uniform 하더라도, action-prior에 대한 정보가 리워드 항에 포함될 수 있기 때문에, 어 떠한 action prior여도 상관이 없습니다. 즉 uniform distribution이라고 가정해도 상관이 없습니다. →action prior를 고려한 최적 trajectory의 확률 분포 𝑝(𝜏) 출처:https://www.youtube.com/watch?v=cnXzQY5Ovlw&list=PLoZgVqqHOumTqxIhcdcpOAJOOimrRCGZn&index=20 [카네기 멜론 대학 PGM 오픈 강의 中 발췌] 참고: 사실 inverse RL 입장에서는 전문가 trajectory가 주어지 고, 이 리워드를 역으로 추론하고자 합니다. CRF: 조건부 무작위장 (Conditional Random Field)
  • 26. Interim Check █ 지금까지의 결론 1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환. 2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최 적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론. 3) 결정론적 환경에서 이 최적정책이 최대화 하고 있는 값은? 4) 환경론적 환경에는…?
  • 27. Inference in Stochastic Environments █ Recall; 확률론적 환경: Optimistic transition Objective: 왜 optimistic한 행동을 하게 되는 걸까요? 그래프 모델의 관점에서 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡, 𝒪𝑡:𝑇 와 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 이 다르기 때문.
  • 28. Inference in Stochastic Environments 방법1: Fix the dynamics PGM에서 posterior dynamics 분포와 참(true) dynamics 분포를 강제로 일치시키게 합니다. 즉, 이렇게 세팅하고 다시 objective를 구해보면, 결정론적인 환경일 때와 같은 결과가 도출됩니다.
  • 29. Inference in Stochastic Environments 방법2: Variational Inference 사실 dynamics를 강제적으로 고정시키는 방법은 것은 뭔가 찝찝함이 있습니다. 따라서 좀 더 수학적인 접근을 생각해 볼 수 있습니다. 먼저 True Dynamics를 가지는 제안분포 𝑞를 정의합시다. Only new thing 새로 제안된 정책 으로 사용됨. Same initial state and dynamics dist. 우리가 편하게 다룰 수 있는(혹은 다루고 싶은) 제안분포를 활용한다...? → 변분 추론을 하면 되겠군요!
  • 30. Inference in Stochastic Environments 한편 우리는 Variational Inference의 하한이 다음과 같다는 사실을 알고 있습니다. log 𝑃 𝑥 ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝑥, 𝑧 − log 𝑞(𝑧)] 그 유명한 ELBO ..! 𝑥를 𝓞𝟏:𝑻 그리고 𝑧를 𝒔𝟏:𝑻, 𝒂𝟏:𝑻 ~𝑞 𝑠1 , 𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 , 𝑞(𝑎𝑡|𝑠𝑡)라고 한다면, log 𝑃(𝒪1:𝑇) ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝒪1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇 − log 𝑞(𝑠1:𝑇, 𝑎1:𝑇)] 임을 얻습니다. 이제 와 를 대입하면 결국 임을 확인할 수 있습니다. 확률론적 환경일지라도 같은 objective 를 증가시키면 됩니다! 이는 후에 살펴보겠지만 Optimistic Transition 문제로 고통받지 않게 하는 이점도 있습니다.
  • 31. Maximum Entropy Reinforcement Learning █ PGM으로 얻은 결과를 한번 다이나믹 프로그래밍 알고리즘 관점으로 살펴봅시다. →앞서 살펴본 backward message를 다이나믹 프로그래밍 알고리즘으로 구해봅시다. 먼저 가장 뒷부분인 종단 상태부터 시작합니다. 이때 KL 거리를 최소화하는 정책은 아래와 같습니다. 정규화 상수 exp(𝑉(𝑠𝑇))=log exp(𝑟(𝑠𝑇, 𝑎𝑇)) KL-divergence의 정의에 따라 등식이 성립함. →두 분포가 같을 때
  • 32. Maximum Entropy Reinforcement Learning 종단 상태(backward message의 initial condition)를 계산했으니, 이제 연쇄적인 방법으로 쭉 표현할 수 있습니다. 먼저 우리가 Q와 V를 다음과 같이 정의한다면, 시간 𝑡에 아래와 같은 등식이 성립합니다. SAC논문에서 주구장창 봐왔던 바로 그 식! 이 때의 최적 정책은 다음과 같습니다.
  • 33. Maximum Entropy Reinforcement Learning 최종 정리 Note: Optimistic transition이 아님! 다이나믹 프로그 래밍으로 계산 Q와 V를 계산하였으면, 최적 정책을 정할 수 있다. 이 최적 정책이 최대화 하고자 하는 objective는 리워드와 엔트로피의 합입니다. 즉, 는 를 따라가고자 근사한 확률 분포 (정책) = 𝑎𝑟𝑔𝑚𝑖𝑛𝜋𝐷𝐾𝐿(𝜋(𝑎𝑡|𝑠𝑡) ∥ exp(𝑄(𝑠𝑡, 𝑎𝑡)) exp(𝑄(𝑠𝑡, 𝑎𝑡)) )
  • 34. Approximate Inference with Function Approximation 이제까지 살펴본 Maximum Entropy RL 프레임워크 를 이용한 알고리즘에 대해 살펴보겠습니다. 1. Maximum Entropy Policy Gradient 2. Maximum Entropy Actor-Critic (Soft Actor-Critic) 3. Maximum Entropy Q-Learning (Soft Q-Learning)
  • 35. Approximate Inference with Function Approximation Actor- Critic Policy Gradient Value- Based Policy Gradient: Objective를 직접적으 로 최적화하는 방법 Value-Based: Value function 혹은 Q function을 평가하는 방법 (explicit 한 정책 은 없으며, V혹은Q값을 바탕으로 정책이 유도 된다.(ex.𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦)) Actor-Critic: Explicit한 정책을 사용 하며 동시에 V혹은 Q 값 역시 활용하여 objective를 최적화한 다. 배경지식
  • 36. Maximum Entropy Policy Gradient Maximum Entropy Policy Gradient : 리워드와 엔트로피의 합인 objective를 이용하여 policy gradient하는 방법입니다.
  • 37. Maximum Entropy Policy Gradient ∇𝜃𝐽 𝜃 = ∇𝜃𝐸𝜏~𝑞𝜃(𝜏) 𝑡=1 𝑇 [𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] Let 𝑞𝜃 𝜏 = 𝑞(𝑠1) 𝑡=1 𝑇 𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡) Same with dynamics Then = ∇𝜃 𝜏 𝑞𝜃(𝜏) 𝑡=1 𝑇 [𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] = 𝜏 ∇𝜃𝑞𝜃(𝜏) 𝑡=1 𝑇 [𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] = 𝜏 [∇𝜃𝑞𝜃(𝜏) 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏) 𝑡=1 𝑇 [log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]] Objective의 gradient를 유도해보겠습니다. 분배법칙
  • 38. Maximum Entropy Policy Gradient 𝜏 [∇𝜃𝑞𝜃(𝜏) 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏) 𝑡=1 𝑇 [log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]] = 𝜏 [𝑞𝜃 𝜏 ∇𝜃 log 𝑞𝜃(𝜏) 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − 𝑞𝜃(𝜏)∇𝜃 log 𝑞𝜃(𝜏) 𝑡=1 𝑇 [log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] − 𝑞𝜃 𝜏 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ] Log-likelihood trick 미분법칙 + Log-likelihood trick = 𝜏 𝑞𝜃 𝜏 (∇𝜃 log 𝑞𝜃 𝜏 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 − 𝑡=1 𝑇 ∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ) = 𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 − 𝑡=1 𝑇 ∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )]
  • 39. Maximum Entropy Policy Gradient 그런데 𝑞𝜃 𝜏 = 𝑞(𝑠1) 𝑡=1 𝑇 𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡) 이므로, ∇𝜃 log 𝑞𝜃 𝜏 = 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡) 따라서 입니다. 𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏 𝑡=1 𝑇 𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 − 𝑡=1 𝑇 ∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )] = 𝐸𝜏~𝑞𝜃(𝜏)[( 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡) 𝑡′=1 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ − 𝑡′=1 𝑇 ∇𝜃log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )] Same with dynamics
  • 40. Maximum Entropy Policy Gradient 𝐸𝜏~𝑞𝜃(𝜏)[( 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡) 𝑡′=1 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ − 𝑡′=1 𝑇 ∇𝜃 log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )] = 𝐸𝜏~𝑞𝜃(𝜏)[( 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=1 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1) = 𝐸𝜏~𝑞𝜃(𝜏)[( 𝑡=1 𝑇 ∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=𝑡 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1) ∵ causality = 𝑡=1 𝑇 𝐸𝜏~𝑞𝜃 𝜏 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=𝑡 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
  • 41. Maximum Entropy Policy Gradient ≈ 1 𝑁 𝑛=1 𝑁 𝑡=1 𝑇 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=𝑡 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)] 따라서 objective의 gradient는 다음과 같습니다. ≈ 1 𝑁 𝑛=1 𝑁 𝑡=1 𝑇 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=𝑡 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]
  • 42. Maximum Entropy Policy Gradient Interesting Relationship to Q-learning 앞서 구한 objective의 gradient를 다시 살펴보겠습니다. ≈ 1 𝑁 𝑛=1 𝑁 𝑡=1 𝑇 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ( 𝑡′=𝑡 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)] = 1 𝑁 𝑛=1 𝑁 𝑡=1 𝑇 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (𝑟 𝑠𝑡, 𝑎𝑡 + 𝑡′=𝑡+1 𝑇 𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ − log 𝑞𝜃(𝑎𝑡|𝑠𝑡) − 1)] 𝑠𝑜𝑓𝑡 𝑚𝑎𝑥𝑎𝑡+1 𝑄(𝑠𝑡+1, 𝑎𝑡+1 ) ≈ 1 𝑁 𝑛=1 𝑁 𝑡=1 𝑇 [∇𝜃𝑄(𝑎𝑡, 𝑠𝑡)(𝑟 𝑠𝑡, 𝑎𝑡 + 𝑠𝑜𝑓𝑡 max 𝑎𝑡+1 𝑄 𝑠𝑡+1, 𝑎𝑡+1 − 𝑄(𝑠𝑡, 𝑎𝑡)] baseline Baseline을 0으 로 놓으면, 후에 살펴 볼 Soft Q-learning과 같아집니다! 아시다시피 baseline은 미분의 방향에 영향 을 주지 않습니다. 다만 정도에 따라 분산을 줄일 수 있습니다.
  • 43. Maximum Entropy Actor-Critic (Soft Actor-Critic) 앞에서 살펴본 Maximum Entropy Policy Gradient 방법과 다르게 ELBO를 직접적으로 미분하 여 최적화하는 것이 아니라 message passing 방법을 이용해보도록 하겠습니다. 자연스럽게 다이나믹 프로그래밍 방법이 등장하겠죠? 먼저 우리는 다음을 알고 있습니다.
  • 44. Maximum Entropy Actor-Critic (Soft Actor-Critic) Q함수와 V함수는 다음의 error objectives를 최소 화 함으로써 얻을 수 있습니다. 자연스럽게 유도됩 니다.
  • 45. Maximum Entropy Actor-Critic (Soft Actor-Critic) 정책은 ELBO를 maximization하는 방향으로 학습이 가능합니다. SAC 논문에서는 정책 objective 를 KL거리로 표현하고 있습니다.
  • 46. Maximum Entropy Q-Learning (Soft Q-Learning) █ Soft Q-Learning 에서는 Q함수만 fitting하여 사용하게 됩니다. 임을 이용하면, Parameterized Q 함수 는 아래처럼 fitting 할 수 있습니다. L2 error로 부터 유도됩니다. Softmax 연산 Step size
  • 47. Advantages of Maximum Entropy RL) █ Maximum Entropy RL은 탐험에 있어 효율적입니다. https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/
  • 48. Advantages of Maximum Entropy RL █ Maximum Entropy RL은 강인한 학습 결과를 보여줍니다. 다양한 환경을 탐험하도록 장려하기 때문에! https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/