Control as Inference.pptx

POSTECH 인공지능대학원
CoCEL Lab | AI팀
석사과정 김장원
Control as Probabilistic Inference
: Maximum Entropy
RL

그래프 모델과 강화학습
█ 강화학습은 상태, 행동, 그리고 다음 상태로의 전이라는
일련의 시퀀스로 표현할 수 있습니다
█ 따라서 강화학습을 다이나믹 프로그래밍의 관점이 아닌 확
률적 그래픽 모델 (Probabilistic graphical model)의 추론 문제
로 바라보면 어떨까요?

The Standard Reinforcement Learning Framework
█ 일반적인 강화학습 프레임워크에서는 Optimal 정책을 복구하는 것을 목
표로 합니다.
이 때 정책은 보통 𝜃로 매개화된 행동(𝑎)에 대해서 상태와 매개변수를 건
으로 가지는 조건부 분포로써 표현됩니다. → 𝝅(𝒂𝒕|𝒔𝒕, 𝜽)
█ 이러한 Optimal 정책을 찾는 문제는 아래와 같은 매개변수
를 찾는 것과 같습니다.

█ 이전 슬라이드에서 𝜃를 구하는 최적화 문제에서 기댓값은
정책에서 나온 trajectory 분포에 취해집니다. 즉,
█ 이제 우리가 해야 할 다음 질문은 다음과 같습니다.
“가장 가능성 높은 trajectory과 Optimal 정책으로부터 나온 trajectory가 같도록 하는
확률적 그래픽 추론 모델 (Probabilistic graphical model)을 어떻게 만들 수 있을까? “
The Standard Reinforcement Learning Framework

█ 먼저 Control Problem을 Graphical Model로 이식하기 위해, 상태 행동 그리고
다음 상태에 대한 관계를 아래와 같이 표현할 수 있습니다.
The Graphical Model
█ 그러나 위 모델로는 Control 문제를 풀기에 충분하지 않습니다.
이는 Reward에 대한 정보가 없기 때문입니다.

█ 따라서 리워드와 관련이 있고 𝒪𝑡로 표시되는 새로운 변수를 추가하겠습니다.
The Graphical Model
▸ 앞으로 𝒪𝑡를 ‘최적성 변수’라고 말하겠습니다.
▸ 𝒪𝑡 는 𝒪𝑡 = 1이면 step 𝑡에서 최적이고 𝒪𝑡 = 0 이면 최적이 아님을 나태내는
binary 변수 입니다.
█ 우리는 𝒪𝑡를 지수의 승수로 리워드 값을 가지는 분포로 표현하겠습니다. 즉,
aka. 1) Boltzmann distribution
2) Energy distribution
최적성을 soft하게 표현

█ 이 최적성 변수를 포함한 그래프 모델은 아래와 같습니다.
The Graphical Model
Note1: 우리가 아는 HMM 모델로서 표현이 되었습니다!
Note2: 위 그래프 모델에서 explicit하게 정책은 언급되지 않았습니다.

█ 이제 𝒪𝑡 = 1 for all 𝑡 ∈ {1, … , 𝑇} 일 때 (모든 상태에서 최적의 행동을 하였을 때)
trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 구해봅시다.
The Graphical Model
█ 환경이 deterministic하다면, 위 결과는 굉장히 직관적입니다.
→즉, 보상의 합이 높은 trajectory일 수록 발생할 확률이 높습니다.

█ 우리의 목표는 앞서 살펴본 trajectory의 분포 𝑝 𝜏 𝑜1:𝑇 를 가지도록 trajectory를 만드
는 정책을 찾는 것입니다. (이 정책은 최적 정책이라고 할 수 있겠죠?)
The Graphical Model
█ 우리가 세운 확률적 그래프 모델에서 최적 정책은 아래와 같이 쓸 수 있습니다.
█ 이 정책은 앞에서 본 표준 강화학습에서의 최적 정책 으로 비유할 수 있겠습니다.
█ 그러나 이 두 정책은 다릅니다.
▸ 그래프 모델에서 추론하는 최적 정책은 매개변수 𝜃와 독립된 정책입니다.
▸ 나중에 알아보겠지만, 두 정책이 최적화하는 objective가 조금 다릅니다.
= 𝑝(𝑎𝑡|𝑠𝑡, 𝒪1:𝑇) by 마르코프 성질

█ HMM-style 그래프 모델에서의 추론을 어떻게 하면 좋을까요?
Policy Search as Probabilistic Inference
→전형적인 Forward-Backward 추론 알고리즘을 사용해봅시다!
█ 우리가 추론해야 할 최적 정책은 임을 기억합시다.
█ backward 𝑚𝑒𝑠𝑠𝑎𝑔𝑒 𝛽(𝑠𝑡, 𝑎𝑡)와 𝛽(𝑠𝑡)를 아래와 같이 정의하겠습니다.
현 상태-행동 쌍(𝑠𝑡, 𝑎𝑡)을 가질 때, 앞으로의 trajectory가 최적일 확률
현 상태(𝑠𝑡)일 때, 앞으로의 trajectory가 최적일 확률
을 추론하기 위해 먼저 backward message를 사용해봅시다.
이
Note: 본 ppt 자료에서는 forward message를 따로 계산하지는 않습니다.
그러나 forward message는 inverse RL의 핵심적인 내용을 담고 있습니다.

█ 𝛽𝑡(𝑠𝑡, 𝑎𝑡)와 𝛽𝑡(𝑠𝑡) 를 살펴보겠습니다.
= exp(𝑟(𝑠𝑡, 𝑎𝑡))
Dynamics
?
action prior
Without loss of generality, Action prior를 균등분포
(𝑝 𝑎𝑡 𝑠𝑡 =
1
|𝒜|
)라고 가정할 수 있습니다.

█ 이제 recursive 하게 backward message를 구할 수 있게 되었습니다!
단 Terminal 상태 T에 대해,
뒤에서부터(backward) 연쇄적으로 계산

█ 이제 우리의 목표인 최적 정책을 구해봅시다.
Bayes’ rule
Flipped by using Bayes’ rule
최적 제어의
potential 함수!
는 균등분포라고 가정했으므로, 상수 취급

█ backward message 𝛽가 가지는 의미를 좀 더 분명하게 파악하기 위해
로그 스케일을 활용하여 다음과 같이 Q와 V를 정의해봅시다.
그런데 이므로,
의 관계가 있음을 알 수 있습니다.

Dynamics이 deterministic 하다면,
를 만족합니다.
이제 Q와 V의 관계를 조금 더 들여다 봅시다.
이는 standard RL에서의 Bellman backup과 정확히 일치합니다!
입니다.
균등분포라고 가정
이므로,

█ Soft-max Operation
Soft-max op.
지수승에 대한 평균
을 다시 log
이런 분포에서 평
균한 것과 비슷한
효과를 보여줌!

Interim Check
█ 지금까지 정리
1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환
2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최
적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론.
그리고,
3) 최적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇)) 도출.

Interim Check
4) Backward message(𝛽) 로그 스케일로 관찰
5) Deterministic한 환경과 Stochastic한 환경 비교
결정론적 환경:
확률론적 환경:
Optimistic transition
Standard RL에서의 Policy iteration과 유사하다.
Let’s do variational inference to fix it.

앞서 확률적 그래프 모델(PGM) 관점에서의 최적 정책을 추론해보았습니다.
그런데 이 최적 정책은 Standard RL에서의 최적 정책과 어떤 차이가 있을
까요?
𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 =
𝛽𝑡(𝑠𝑡, 𝑎𝑡)
𝛽𝑡(𝑠𝑡)
= exp 𝑄 𝑠𝑡, 𝑎𝑡 − 𝑉 𝑠𝑡
VS.
𝜋 𝑎𝑡 𝑠𝑡𝜃∗ 𝑤ℎ𝑒𝑟𝑒,
PGM 관점에서의 최적 정책
Standard RL 프레임워크 에서
의 최적 정책

Which Objective does This Inference Procedure Optimize?
Recall;
먼저 결정론적 환경에서 생각해봅시다.
그렇다면 정책으로부터 나온 trajectory의 분포 𝑝(𝜏)는 다음과 같습니다.
근사: 𝑃 𝑎𝑡 𝑠𝑡, 𝒪𝑡:𝑇 ≈ 𝜋(𝑎𝑡|𝑠𝑡)
①
②

Exact Inference
𝑝 𝜏 와 𝑝(𝜏)를 같도록 만듭시다!
최적성변수가
모두 1일 때의
trajectory 확률
분포.
즉, 최적
trajectory의 확
률 분포.
정책 𝜋(𝑎𝑡|𝑠𝑡) (𝑝(𝑎𝑡|𝑠𝑡,𝒪𝑡:𝑇)의 근사)
로부터 나오는 trajectory의 확률 분포
How?
KL-divergence!
Policy에서
유도된
trajectory
𝑝 𝜏 𝒪1:𝑇
PGM을 바탕으로 유도
된 trajectory 분포

Entropy bonus!
Standard RL +

Stochastic한 환경에서는…?
이 결과는 deterministic 환경에서의 objective 처럼 단순히 리워드에 엔트로피를 더한 것이 아닙니다.
이는 계산하기 어려울 뿐더러, 사실 optimistic한 행동을 야기하게 됩니다.
Optimistic한 행동은 보통 매우 좋지 않은 결과를 낳게 됩니다.
이를 어떻게 해결해야 할까요?
→ Variational Inference!
위 objective를 직접적으로 최대화 하려고
하지 말고, 어떤 Lower bound를 찾아서 이
를 maximization 해보자.

Alternative Model Formulations
■ 생각해볼 수 있는 수정사항들
1) Discounted reward
→ 일반적인 RL 프레임워크에서 사용하는 할인된 리워드 전략을 사용하더라도 영향을
주지 않습니다.
2) 양수인 reward?
→ exp(𝑟(𝑠, 𝑎))는 potential function이므로 일반성을 잃지 않습니다.
exp(𝑟(𝑠, 𝑎) − 𝑟𝑚𝑎𝑥) = 𝑎 ⋅ exp(𝑟(𝑠, 𝑎))
3) Temperature 변수의 도입
마찬가지로 exp(𝑟(𝑠, 𝑎))는 potential function이므로
Φ 𝑠, 𝑎 = p 𝒪 = 1 𝑠, 𝑎 =
1
𝛼
exp(𝑟(𝑠, 𝑎))로 표현해도 일반성을 잃지 않습니다. 이 때의 objective는 리워
드와 엔트로피에 𝛼 값을 곱한 값의 총 합의 기댓값으로 표현됩니다. 𝜶가 0으로 가까워질수록 Standard
RL의 objective에 가까워집니다.

Alternative Model Formulations
4) Non-uniform action prior?
Action prior가 non-uniform 하더라도, action-prior에 대한 정보가 리워드 항에 포함될 수 있기 때문에, 어
떠한 action prior여도 상관이 없습니다. 즉 uniform distribution이라고 가정해도 상관이 없습니다.
→action prior를 고려한 최적 trajectory의 확률 분포 𝑝(𝜏)
출처:https://www.youtube.com/watch?v=cnXzQY5Ovlw&list=PLoZgVqqHOumTqxIhcdcpOAJOOimrRCGZn&index=20
[카네기 멜론 대학 PGM 오픈 강의 中 발췌]
참고: 사실 inverse RL 입장에서는 전문가 trajectory가 주어지
고, 이 리워드를 역으로 추론하고자 합니다.
CRF: 조건부 무작위장
(Conditional Random Field)

Interim Check
█ 지금까지의 결론
1) 강화학습을 확률적 그래픽 모델에서의 추론 문제로 변환.
2) HMM 문제와 비슷하기 때문에, Forward-Backward 알고리즘으로 최
적 정책(𝑝(𝑎𝑡|𝑠𝑡, 𝒪𝑡:𝑇))추론.
3) 결정론적 환경에서 이 최적정책이 최대화 하고 있는 값은?
4) 환경론적 환경에는…?

Inference in Stochastic Environments
█ Recall;
확률론적 환경:
Optimistic transition
Objective:
왜 optimistic한 행동을 하게 되는 걸까요?
그래프 모델의 관점에서 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡, 𝒪𝑡:𝑇 와 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 이 다르기 때문.

방법1: Fix the dynamics
PGM에서 posterior dynamics 분포와 참(true) dynamics 분포를 강제로 일치시키게 합니다. 즉,
이렇게 세팅하고 다시 objective를 구해보면, 결정론적인 환경일 때와 같은 결과가 도출됩니다.

방법2: Variational Inference
사실 dynamics를 강제적으로 고정시키는 방법은 것은 뭔가 찝찝함이 있습니다.
따라서 좀 더 수학적인 접근을 생각해 볼 수 있습니다.
먼저 True Dynamics를 가지는 제안분포 𝑞를 정의합시다.
Only new thing
새로 제안된 정책
으로 사용됨.
Same initial state
and dynamics dist.
우리가 편하게 다룰 수 있는(혹은 다루고 싶은) 제안분포를 활용한다...?
→ 변분 추론을 하면 되겠군요!

한편 우리는 Variational Inference의 하한이 다음과 같다는 사실을 알고 있습니다.
log 𝑃 𝑥 ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝑥, 𝑧 − log 𝑞(𝑧)]
그 유명한 ELBO ..!
𝑥를 𝓞𝟏:𝑻 그리고 𝑧를 𝒔𝟏:𝑻, 𝒂𝟏:𝑻 ~𝑞 𝑠1 , 𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 , 𝑞(𝑎𝑡|𝑠𝑡)라고 한다면,
log 𝑃(𝒪1:𝑇) ≥ 𝔼𝑧~𝑞 𝑧 [log 𝑃 𝒪1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇 − log 𝑞(𝑠1:𝑇, 𝑎1:𝑇)]
임을 얻습니다.
이제 와 를 대입하면 결국
임을 확인할 수 있습니다.
확률론적 환경일지라도 같은 objective
를 증가시키면 됩니다!
이는 후에 살펴보겠지만 Optimistic
Transition 문제로 고통받지 않게 하는
이점도 있습니다.

Maximum Entropy Reinforcement Learning
█ PGM으로 얻은 결과를 한번 다이나믹 프로그래밍 알고리즘 관점으로 살펴봅시다.
→앞서 살펴본 backward message를 다이나믹 프로그래밍 알고리즘으로 구해봅시다.
먼저 가장 뒷부분인 종단 상태부터 시작합니다.
이때 KL 거리를 최소화하는 정책은 아래와 같습니다.
정규화 상수
exp(𝑉(𝑠𝑇))=log exp(𝑟(𝑠𝑇, 𝑎𝑇))
KL-divergence의 정의에
따라 등식이 성립함.
→두 분포가 같을 때

종단 상태(backward message의 initial condition)를 계산했으니, 이제 연쇄적인 방법으로 쭉 표현할 수 있습니다.
먼저 우리가 Q와 V를 다음과 같이 정의한다면,
시간 𝑡에 아래와 같은 등식이 성립합니다.
SAC논문에서 주구장창 봐왔던 바로 그 식!
이 때의 최적 정책은 다음과 같습니다.

최종 정리
Note: Optimistic transition이 아님!
다이나믹 프로그
래밍으로 계산
Q와 V를 계산하였으면, 최적
정책을 정할 수 있다.
이 최적 정책이 최대화 하고자 하는 objective는 리워드와 엔트로피의 합입니다. 즉,
는 를 따라가고자 근사한 확률 분포 (정책)
= 𝑎𝑟𝑔𝑚𝑖𝑛𝜋𝐷𝐾𝐿(𝜋(𝑎𝑡|𝑠𝑡) ∥
exp(𝑄(𝑠𝑡, 𝑎𝑡))
exp(𝑄(𝑠𝑡, 𝑎𝑡))
)

Approximate Inference with Function Approximation
이제까지 살펴본 Maximum Entropy RL 프레임워크
를 이용한 알고리즘에 대해 살펴보겠습니다.
1. Maximum Entropy Policy Gradient
2. Maximum Entropy Actor-Critic (Soft Actor-Critic)
3. Maximum Entropy Q-Learning (Soft Q-Learning)

Approximate Inference with Function Approximation
Actor-
Critic
Policy
Gradient
Value-
Based
Policy Gradient:
Objective를 직접적으
로 최적화하는 방법
Value-Based:
Value function 혹은 Q
function을 평가하는
방법 (explicit 한 정책
은 없으며, V혹은Q값을
바탕으로 정책이 유도
된다.(ex.𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦))
Actor-Critic:
Explicit한 정책을 사용
하며 동시에 V혹은 Q
값 역시 활용하여
objective를 최적화한
다.
배경지식

Maximum Entropy Policy Gradient
: 리워드와 엔트로피의 합인 objective를 이용하여 policy gradient하는 방법입니다.

∇𝜃𝐽 𝜃 = ∇𝜃𝐸𝜏~𝑞𝜃(𝜏)
𝑡=1
𝑇
[𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]
Let 𝑞𝜃 𝜏 = 𝑞(𝑠1) 𝑡=1
𝑇
𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡)
Same with dynamics
Then
= ∇𝜃
𝜏
𝑞𝜃(𝜏)
𝑡=1
𝑇
=
𝜏
∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
=
𝜏
[∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]]
Objective의 gradient를 유도해보겠습니다.
분배법칙

𝜏
[∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − ∇𝜃𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)]]
=
𝜏
[𝑞𝜃 𝜏 ∇𝜃 log 𝑞𝜃(𝜏)
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − 𝑞𝜃(𝜏)∇𝜃 log 𝑞𝜃(𝜏)
𝑡=1
𝑇
[log 𝑞𝜃(𝑎𝑡|𝑠𝑡)] − 𝑞𝜃 𝜏
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 ]
Log-likelihood trick 미분법칙 + Log-likelihood trick
=
𝜏
𝑞𝜃 𝜏 (∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎𝑡 − log 𝑞𝜃 𝑎𝑡 𝑠𝑡 −
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )
= 𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )]

그런데 𝑞𝜃 𝜏 = 𝑞(𝑠1)
𝑡=1
𝑇
𝑞 𝑠𝑡+1 𝑠𝑡, 𝑎𝑡 𝑞𝜃(𝑎𝑡|𝑠𝑡) 이므로, ∇𝜃 log 𝑞𝜃 𝜏 =
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃(𝑎𝑡|𝑠𝑡)
따라서
입니다.
𝐸𝜏~𝑞𝜃(𝜏)[(∇𝜃 log 𝑞𝜃 𝜏
𝑡=1
𝑇
𝑡=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡 𝑠𝑡 )]
= 𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ −
𝑡′=1
𝑇
∇𝜃log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )]
Same with dynamics

𝐸𝜏~𝑞𝜃(𝜏)[(
𝑡=1
𝑇
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ −
𝑡′=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ )]
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)
𝑡=1
𝑇
∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)
∵ causality
=
𝑡=1
𝑇
𝐸𝜏~𝑞𝜃 𝜏 [∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ ) − 1)]

≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (
𝑡′=𝑡
𝑇
따라서 objective의 gradient는 다음과 같습니다.
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
𝑡′=𝑡
𝑇

Interesting Relationship to Q-learning
앞서 구한 objective의 gradient를 다시 살펴보겠습니다.
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
𝑡′=𝑡
𝑇
=
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃 log 𝑞𝜃 𝑎𝑡 𝑠𝑡 (𝑟 𝑠𝑡, 𝑎𝑡 +
𝑡′=𝑡+1
𝑇
𝑟 𝑠𝑡′, 𝑎𝑡′ − log 𝑞𝜃 𝑎𝑡′ 𝑠𝑡′ − log 𝑞𝜃(𝑎𝑡|𝑠𝑡) − 1)]
𝑠𝑜𝑓𝑡 𝑚𝑎𝑥𝑎𝑡+1
𝑄(𝑠𝑡+1, 𝑎𝑡+1 )
≈
1
𝑁
𝑛=1
𝑁
𝑡=1
𝑇
[∇𝜃𝑄(𝑎𝑡, 𝑠𝑡)(𝑟 𝑠𝑡, 𝑎𝑡 + 𝑠𝑜𝑓𝑡 max
𝑎𝑡+1
𝑄 𝑠𝑡+1, 𝑎𝑡+1 − 𝑄(𝑠𝑡, 𝑎𝑡)]
baseline
Baseline을 0으
로 놓으면,
후에 살펴 볼 Soft Q-learning과 같아집니다!
아시다시피 baseline은 미분의 방향에 영향
을 주지 않습니다. 다만 정도에 따라 분산을
줄일 수 있습니다.

Maximum Entropy Actor-Critic (Soft Actor-Critic)
앞에서 살펴본 Maximum Entropy Policy Gradient 방법과 다르게 ELBO를 직접적으로 미분하
여 최적화하는 것이 아니라 message passing 방법을 이용해보도록 하겠습니다.
자연스럽게 다이나믹 프로그래밍 방법이
등장하겠죠?
먼저 우리는 다음을 알고 있습니다.

Q함수와 V함수는 다음의 error objectives를 최소
화 함으로써 얻을 수 있습니다.
자연스럽게 유도됩
니다.

정책은 ELBO를 maximization하는 방향으로 학습이 가능합니다.
SAC 논문에서는 정책 objective
를 KL거리로 표현하고 있습니다.

Maximum Entropy Q-Learning (Soft Q-Learning)
█ Soft Q-Learning 에서는 Q함수만 fitting하여 사용하게 됩니다.
임을 이용하면,
Parameterized Q 함수 는 아래처럼 fitting 할 수 있습니다.
L2 error로 부터 유도됩니다.
Softmax 연산
Step
size

Advantages of Maximum Entropy RL)
█ Maximum Entropy RL은 탐험에 있어 효율적입니다.
https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/

Advantages of Maximum Entropy RL
█ Maximum Entropy RL은 강인한 학습 결과를 보여줍니다.
다양한 환경을 탐험하도록 장려하기 때문에!
https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/

Control as Inference.pptx

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Control as Inference.pptx

Similaire à Control as Inference.pptx (20)

Control as Inference.pptx