Natural data in high dimensional spaces concentrates close to lower dimensional manifolds.
Probability density decreases very rapidly when moving away from the supporting manifold.
Manifold Hypothesis (assumption)
Interpolation in high dimension Interpolation in manifold
• PixelRNN and PixelCNN
• Variational Autoencoders (VAE) – Latent model
• Generative Adversarial Networks (GANs)
• PixelRNN and PixelCNN
• Variational Autoencoders (VAE) – Latent model
• Generative Adversarial Networks (GANs)
Taxonomy of Deep Generative Models
- Ian Goodfellow -
X는 손글씨 2로 이루어진 데이터
우리가 찾고 싶은 model
𝑝 𝑑𝑎𝑡𝑎 𝑥 ≈ 𝑝 𝑚𝑜𝑑𝑒𝑙 𝑥
What Machine learns
결국 Latent Model 은 어떠한 z를 통해서 y를 찾아내는 것
만약 𝑧1, 𝑧2, 𝑧3 가 서로 아무 관계 없는 임의의 숫자라면 Z값을 찾아내는 게 의
미가 있을까? -> 그러한 모델은 의미가 없다. 만들어 내봤자, Target과 똑같은
것만 만듬
우리는 새로운 데이터를 원함
왜? 분명 같은 숫자 간에는 무언가 관계가 있을 테니까 그것을 생성하게 해줄 임
의의 Z도 무언가 관계가 있으면 좋을 것이다. 더불어 Z간의 관계를 알 수 있다면
우리는 그것을 Control해 Y값도 변화시킬 수 있을 것이다.
𝜃 = 𝑎𝑟𝑔max
ෑ 𝑃 𝜃(𝑥𝑖) = 𝑎𝑟𝑔max
𝑃 𝜃(𝑥1, 𝑥2 , … … … , 𝑥 𝑛−1, 𝑥 𝑛)
x를 iid한 Data Set X에서 sampling한 한 개의 데이터라고 할 때
𝜃 는 𝑥1, 𝑥2 , … … … , 𝑥 𝑛−1, 𝑥 𝑛각각의 데이터 셋들이 모두 잘 나오게 해야 하므로
확률 ς 𝑃 𝜃(𝑥𝑖) 를 최대화 하는 값이어야 한다.
𝑃𝑑𝑎𝑡𝑎 𝑥 ≈ 𝑃 𝑚𝑜𝑑𝑒𝑙 𝑥 = ‫׬‬ 𝑃 ȁ𝑥 𝑔 𝜃 𝑧 𝑃 𝑧 𝑑𝑧 = σ 𝑃 ȁ𝑥 𝑔 𝜃 𝑧 𝑃 𝑧
위의 𝜃 이용해서 바로 𝑃 𝑚𝑜𝑑𝑒𝑙 𝑥 계산하면 안되나?
Maximum likelihood 𝜃 = 𝑎𝑟𝑔max
σ 𝑃 ȁ𝑥 𝑔 𝜃 𝑧 𝑃 𝑧
Multivariate cases − log 𝑝 𝑦𝑖 𝑓𝜃 𝑥𝑖
Gaussian distribution Categorical distribution
𝑓𝜃 𝑥𝑖 = 𝜇𝑖 𝑓𝜃 𝑥𝑖 = 𝑝𝑖
Distribution estimation
𝑝 𝑦𝑖 𝑥𝑖
Likelihood값을 예측하는 것이 아니라,
Likelihood의 파라미터값을 예측하는 것이
Mean Squared Error Cross-entropy
If 𝑝 𝑥 𝑔 𝜃(𝑧) = 𝒩 𝑥 𝑔 𝜃 𝑧 , 𝜎2 ∗ 𝐼 , the negative log probability
of X is proportional squared Euclidean distance between 𝑔 𝜃(𝑧) and
𝑥 : Figure 3(a)
𝑧 𝑏𝑎𝑑 → 𝑔 𝜃 𝑧 𝑏𝑎𝑑 : Figure 3(b)
𝑧 𝑏𝑎𝑑 → 𝑔 𝜃 𝑧 𝑔𝑜𝑜𝑑 : Figure 3(c) (identical to x but shifted down and
to the right by half a pixel)
𝑥 − 𝑧 𝑏𝑎𝑑
2 < 𝑥 − 𝑧 𝑔𝑜𝑜𝑑
→ 𝑝 𝑥 𝑔 𝜃(𝑧 𝑏𝑎𝑑) >𝑝 𝑥 𝑔 𝜃(𝑧 𝑔𝑜𝑜𝑑)
Solution 1: we should set the 𝜎 hyperparameter of our Gaussian
distribution such that this kind of erroroneous digit does not
contribute to p(X) → hard..
Solution 2: we would likely need to sample many thousands of
digits from 𝑧 𝑔𝑜𝑜𝑑 → hard..
𝑝(𝑥) ≈ ෍
𝑝 𝑥 𝑔 𝜃 𝑧𝑖 𝑝(𝑧𝑖)
Question: Why don’t we use maximum likelihood estimation directly?
생성기에 대한 확률모델을 가우시안으로 할 경우,
MSE관점에서 가까운 것이 더 p(x)에 기여하는 바가
MSE가 더 작은 이미지가 의미적으로도 더 가까운 경
우가 아닌 이미지들이 많기 때문에 현실적으로 올바
른 확률값을 구하기가 어렵다.
Sampling한 하나의 digits은 당연히 P(X)를 추정하는데
큰 영향을 못 줌
𝑝 𝑧ȁ𝑥
≈ 𝑞 𝜙 𝑧ȁ𝑥 ~𝑧
Latent Variable Target Data
One possible solution : sampling 𝑧 from 𝑝(𝑧ȁ𝑥)
[ Variational Inference ]
VI란 사후확률(posterior) 분포 p(z|x)를 다루기 쉬운 확률분포 q(z)로 근사(approximation)하는 걸 말합
니다. 사후확률 분포를 계산하는게 불가능에 가까울 정도로 어려운 경우가 많기 때문
사후확률 분포 p(z|x)와 q(z) 사이의 KLD를 계산하고, KLD가 줄어드는 쪽으로 q(z)를 조금씩 업데이
트하는 과정을 반복하면 사후확률을 잘 근사하는 q∗(z)를 얻게 될 것이라는 게 VI의 핵심 아이디어.
Variational Inference with Monte Carlo sampling
[ Jensen’s Inequality ]
For concave functions f(.)
log 𝑝 𝑥 = log න 𝑝 𝑥ȁ𝑧 𝑝(𝑧)𝑑𝑧 ≥ නlog 𝑝 𝑥ȁ𝑧 𝑝(𝑧)𝑑𝑧
log 𝑝 𝑥 = log න 𝑝 𝑥ȁ𝑧
𝑞 𝜙(𝑧ȁ𝑥)
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧 ≥ න log 𝑝 𝑥ȁ𝑧
𝑞 𝜙(𝑧ȁ𝑥)
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧
log 𝑝 𝑥 ≥ න log 𝑝 𝑦ȁ𝑧 𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧 − න log
𝑞 𝜙(𝑧ȁ𝑥)
𝑝 𝑧
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧
Variational lower bound Evidence lower bound (ELBO)
= 𝔼 𝑞 𝜙 𝑧ȁ𝑥 log 𝑝 𝑥ȁ𝑧 − 𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥 ȁ𝑝 𝑧
Relationship among 𝑝 𝑥 , 𝑝 𝑧 𝑥 , 𝑞 𝜙 𝑧ȁ𝑥 : Derivation 1
←Variational inference
ELBO를 최대화하는 𝜙∗
값을 찾으면 log 𝑝 𝑥 = 𝔼 𝑞 𝜙∗ 𝑧ȁ𝑥 log 𝑝 𝑥ȁ𝑧 − 𝐾𝐿 𝑞 𝜙∗ 𝑧ȁ𝑥 ȁ𝑝 𝑧 이다.
Relationship among 𝑝 𝑥 , 𝑝 𝑧 𝑥 , 𝑞 𝜙 𝑧ȁ𝑥 : Derivation 2
log 𝑝 𝑥 = න log 𝑝 𝑥 𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧← ‫׬‬ 𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧 = 1
= න log
𝑝 𝑥, 𝑧
𝑝 𝑧ȁ𝑥
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧← 𝑝 𝑥 =
𝑝(𝑥, 𝑧)
= න log
𝑝 𝑥, 𝑧
𝑞 𝜙 𝑧ȁ𝑥
𝑞 𝜙 𝑧ȁ𝑥
𝑝 𝑧ȁ𝑥
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧
= න log
𝑝 𝑥, 𝑧
𝑞 𝜙 𝑧 𝑥
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧 + න log
𝑞 𝜙 𝑧 𝑥
𝑝 𝑧ȁ𝑥
𝑞 𝜙(𝑧ȁ𝑥)𝑑𝑧
𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥 ∥ 𝑝 𝑧 𝑥𝐸𝐿𝐵𝑂(𝜙)
두 확률분포 간의 거리≥0
log 𝑝 𝑥
𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥 ȁ 𝑝 𝑧ȁ𝑥
𝜙1 𝜙2
KL을 최소화하는 𝑞 𝜙 𝑧ȁ𝑥 의 𝜙값을 찾으면 되는데 𝑝 𝑧ȁ𝑥 를 모르기 때문에,
KL최소화 대신에 ELBO를 최대화하는𝜙값을 찾는다.
𝑥𝑖 𝑞 𝜙 𝑧ȁ𝑥𝑖
Reconstruction Error
𝐿𝑖 𝜙, 𝜃, 𝑥𝑖 = −𝔼 𝑞 𝜙 𝑧ȁ𝑥𝑖
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 + 𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥𝑖 ȁ𝑝 𝑧
𝔼 𝑞 𝜙 𝑧ȁ𝑥 𝑖
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 = නlog 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑞 𝜙 𝑧ȁ𝑥𝑖 𝑑𝑧
𝑧 𝑖,𝑙
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑖,𝑙
Monte-carlo technique →
𝑧 𝑖,1
𝑧 𝑖,2
𝑧 𝑖,𝑙
𝑧 𝑖,𝐿……
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑖,1
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑖,2
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑖,𝑙
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 𝑖,𝐿
• L is the number of samples for latent vector
• Usually L is set to 1 for convenience
KL divergence
𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥𝑖 ȁ𝑝 𝑧 =
𝑡𝑟 𝜎𝑖
𝐼 + 𝜇𝑖
𝜇𝑖 − 𝐽 + ln
ς 𝑗=1
+ ෍
− 𝐽 − ෍
ln 𝜎𝑖,𝑗
+ 𝜎𝑖,𝑗
− ln 𝜎𝑖,𝑗
− 1
𝑥𝑖 𝑞 𝜙 𝑧ȁ𝑥𝑖
𝐿𝑖 𝜙, 𝜃, 𝑥𝑖 = −𝔼 𝑞 𝜙 𝑧ȁ𝑥 𝑖
log 𝑝 𝜃 𝑥𝑖ȁ𝑧 + 𝐾𝐿 𝑞 𝜙 𝑧ȁ𝑥𝑖 ȁ𝑝 𝑧
Easy to compute!!
𝑞 𝜙 ∙
𝑔 𝜃(∙)
𝑧 𝑖
Reconstruction Error: σ 𝑗=1
𝑥 𝑖,𝑗−𝜇𝑖,𝑗
Regularization :
σ 𝑗=1
+ 𝜎𝑖,𝑗
− ln 𝜎𝑖,𝑗
− 1
𝒩(0, 𝐼)
오토인코더의 모든 것 by 이활석 (NAVER)
Youtube:, Slideshare:
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기 by 최윤제 (NAVER)
Youtube:, Slideshare:
Theory and Application of Generative Adversarial Networks by Ming-Yu Liu, Julie Bernauer, Jan Kautz (NVIDIA)
Youtube:, Slideshare:
Tutorial on Variational Autoencoders by Carl Doersch (Carnegie Mellon / UC Berkeley)
Generative Adversarial Nets (2014) NIPS by Goodfellow et al
Variational Auto Encoder, Generative Adversarial Model

  • 60. References 오토인코더의 모든 것 by 이활석 (NAVER) Youtube:, Slideshare: 1시간만에 GAN(Generative Adversarial Network) 완전 정복하기 by 최윤제 (NAVER) Youtube:, Slideshare: network Theory and Application of Generative Adversarial Networks by Ming-Yu Liu, Julie Bernauer, Jan Kautz (NVIDIA) Youtube:, Slideshare: generative-adversarial-networks Tutorial on Variational Autoencoders by Carl Doersch (Carnegie Mellon / UC Berkeley) Arxiv: Generative Adversarial Nets (2014) NIPS by Goodfellow et al