SlideShare une entreprise Scribd logo
1  sur  58
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
GQNと関連研究,世界モデルとの関係について
Presenter: Masahiro Suzuki, Matsuo Lab
輪読内容について
• Neural scene representation and rendering
– S. M. Ali Eslami, Danilo J. Rezende, et al.
• Rezendeは,VAEやnormalizing flowを提案した人
• Deep Mind (Last authorはDemis Hassabis)
• Scienceに採録
• Generative Query Network(GQN)を提案した論文
– 本発表では,GQNの説明のために深層生成モデルの基礎から順番に話します.
– 合わせて,関連研究(全部DeepMind発)や世界モデルとの関連についても説明します.
• 本論文についての私見
– 確率モデル的には新しいことを提案しているわけではなく,従来の研究の応用.
– 学習できるアーキテクチャを提案した&実際に学習できることを示したことに意味があると考えていま
す.
– 世界モデルの研究的には非常に重要な論文で,今後こういう研究はどんどん増えていくのは確実(既
にDeepMindが量産している)
→どの部分が重要なのかをおさえることが大事 2
どういう研究?
• ある複数の視点における画像を元に,別の視点の画像を生成するGenerative
Query Network(GQN)というモデルを提案した.
– 動画で見ると衝撃的(https://www.youtube.com/watch?v=RBJFngN33Qo)
• 2D画像から3Dモデルを作成した?と話題に
– ただし多少誤解がある気がするので,基礎となる深層生成モデルから順番に説明していきます.
3
Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes
training scene ! from different viewpoints (in this example from &$
/
, &$
@
and &$
A
). (B) The inputs
to the representation network 2 are observations made from viewpoints &$
/
and &$
@
, and the
A B
r1 r2
r
h1 h2 hL
z
Generation network gRepresentation network f
···
v2 v3
v1
v2v1 v3
Neural scene
representation
Query
Latent
Rendering steps
Predicted
view
+
i
i i
i i i
Observation 1
Observation 3Observation 2
目次
• 深層生成モデル(VAE〜CVAE)の概要
• Generative Query Network
• 実験
• 関連研究
• GQNと「世界モデル」
• まとめ
4
深層生成モデル(VAE〜CVAE)の概要
5
深層生成モデル
• 生成モデルの確率分布を深層ニューラルネットワーク(DNN)で構成したもの
– 生成モデル:データの生成過程をモデル化
• 代表的な深層生成モデル
– 確率分布を明示的に設定(尤度ベース)
• Variational Autoencoder(VAE)
– 対数尤度の変分下界を最大化
• 自己回帰モデル
– 自己回帰(条件付き分布の積)によって尤度を直接モデル化&最大化
• Flow-based model
– 可逆かつヤコビアンが容易に計算可能な関数を用いて尤度を直接モデル化&最大化
– 確率分布を暗黙的に仮定
• Generative adversarial network(GAN)
– 真の分布との密度比を敵対的に学習(詳しくはhttps://www.slideshare.net/masa_s/gan-83975514) 6
観測データ
𝑝 𝑥|𝜃
生成モデル
生成
学習
Variational Autoencoder
• Variational autoencoder (VAE) [Kingma+ 13][Rezende+ 14]
– Inference(encoder)𝑞(𝑧|𝑥) とGeneration(decoder)𝑝(𝑥|𝑧) によって構成される深層生成モデル
• 確率分布は,それぞれDNNでモデル化
– Inferenceで入力𝑥を𝑧にencodeし,Generationで𝑧から𝑥をdecode(再構成)する.
– 入力𝑥には画像や文書,音声情報などが使われる.
※DNNによる確率分布のパラメータ化方法や,reparameterization trickなどの話は省略します
7
𝑧Inference 𝑞(𝑧|𝑥) Generation 𝑝(𝑥|𝑧)𝑥 𝑥
再構成入力
Variational Autoencoder
• グラフィカルモデル
8
• 変分下界(目的関数)
log 𝑝 𝑥
≥ 𝔼 𝑞 𝑧 𝑥 log
𝑝 𝑥 𝑧 𝑝(𝑧)
𝑞 𝑧 𝑥
= 𝔼 𝑞 𝑧 𝑥 log 𝑝(𝑥|𝑧) − 𝐾𝐿[𝑞 𝑧 𝑥 ||𝑝(𝑧)]
• ネットワーク構造
𝑥
𝑧
𝑞(𝑧|𝑥) 𝑝(𝑥|𝑧)
𝑝(𝑧)
𝑧Inference 𝑞(𝑧|𝑥) Generation 𝑝(𝑥|𝑧)𝑥 𝑥
再構成入力
Prior
Inference Generation
対数尤度
(負の)再構成誤差項 正則化項
-> 変分下界を最大化するように,𝑞と𝑝を学習
潜在空間の学習
• 2次元の潜在空間の可視化(MNISTデータセット)
– 潜在変数𝑧の値を変更し,そのときの画像をGeneration 𝑝(𝑥|𝑧)によって生成
– 画像が連続的に変化しており,潜在空間上で多様体学習ができていることがわかる.
[Kingma+ 13]より
生成画像
• ランダムな𝑧から画像𝑥をサンプリング
– 様々な𝑧からデータ集合に含まれない未知の画像𝑥を生成できる.
– (ただし,画像がぼやける傾向がある)
[Kingma+ 13]より @AlecRad
Conditional Variational Autoencoder(Kingma ver.)
• Conditional Variational autoencoder (CVAE) [Kingma+ 14]
– VAEに任意の情報𝑦を「条件づけた(conditioned)」モデル
• 元論文ではM2モデルと呼ばれているもの
• ここでは,CVAE(Kingma ver.)と呼ぶ.
– 𝑦を操作することで,対応するxを生成することができる.
– 𝑧上では,𝑦に依存しない表現を獲得することができる.
• ただし,実際にはInferenceで依存関係が存在している.
11
𝑦
𝑧Inference 𝑞(𝑧|𝑥, 𝑦) Generation 𝑝(𝑥|𝑧, 𝑦)𝑥 𝑥
再構成入力
Conditional Variational Autoencoder(Kingma ver.)
• グラフィカルモデル
12
• 変分下界(目的関数)
log 𝑝 𝑥|𝑦
≥ 𝔼 𝑞 𝑧 𝑥, 𝑦 log
𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧)
𝑞 𝑧 𝑥, 𝑦
= 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝(𝑥|𝑧, 𝑦) − 𝐾𝐿[𝑞 𝑧 𝑥, 𝑦 ||𝑝(𝑧)]
• ネットワーク構造
入力
𝑥
再構成
𝑥
𝑧Encoder 𝑞(𝑧|𝑥, 𝑦) Decoder 𝑝(𝑥|𝑧, 𝑦)
𝑦
𝑥
𝑧
𝑞(𝑧|𝑥, 𝑦)
𝑝(𝑥|𝑧, 𝑦)
𝑦𝑝(𝑧)
Conditional Variational Autoencoder(Sohn ver.)
• CVAE(Sohn ver.)[Sohn+ 15]
– Priorを𝑝(𝑧)から𝑝(𝑧|𝑦)に変更.
• PriorもDNNでモデル化する.
• 最初に「CVAE」として提案されたのはこちら.
– 条件づけたPriorによって,次の利点がある.
• 生成モデルが,より柔軟な形になる.
• Priorを用いて,𝑦から直接潜在変数𝑧を推論できる(Inferenceでは𝑥と𝑦の両方が必要).
13
𝑦
𝑧Inference 𝑞(𝑧|𝑥, 𝑦) Generation 𝑝(𝑥|𝑧, 𝑦)𝑥 𝑥
再構成入力
𝑧Prior 𝑝(𝑧|𝑦)
Conditional Variational Autoencoder(Sohn ver.)
• グラフィカルモデル
14
• 変分下界(目的関数)
log 𝑝 𝑥|𝑦
≥ 𝔼 𝑞 𝑧 𝑥, 𝑦 log
𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧|𝑦)
𝑞(𝑧|𝑥, 𝑦)
= 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝(𝑥|𝑧, 𝑦) − 𝐾𝐿[𝑞(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)]
• ネットワーク構造
𝑥
𝑧
𝑞(𝑧|𝑥, 𝑦)
𝑝(𝑥|𝑧, 𝑦)
𝑝(𝑧|𝑦)
𝑦
補足: 𝐾𝐿[𝑝(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)]の最小化について
• 𝐾𝐿[𝑝(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)]は,近づける先の分布𝑝(𝑧|𝑥, 𝑦)の方が不確かさが小さい
– 直感的には, 𝑝(𝑧|𝑦)は尖った分布に近づいてしまい,学習が安定しないと考えられる(左)
– 実際はKL項はデータ分布の期待値であり,式変形するとデータ分布での期待値𝑝 𝑎𝑣𝑔(𝑧|𝑦)と𝑝(𝑧|𝑦)の
KLダイバージェンスになる(右)
• そのため,学習は安定する.
• CVAE以外の利用:
– マルチモーダル学習では,単一モダリティ入力 𝑦のInference 𝑞(𝑧|𝑦)を学習するために導入されている.
• 初出はJMVAE [Suzuki+ 16],その後SCAN [Higgins+ 17]などでも利用されている.
• 上記の証明は, JMVAEの説明として[Vedantam+ 17]のAppendixに書かれている.
– 世界モデル研究では標準的な方法になりつつある.
• 最近では,TD-VAE [Gregor+ 18]でも同様の方法が使われている.
15
𝑝(𝑧|𝑥, 𝑦) 𝑝(𝑧|𝑦)
𝑝 𝑎𝑣𝑔(𝑧|𝑦) = 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥|𝑦)[𝑝 𝑧 𝑥, 𝑦 ]
𝑝(𝑧|𝑦)
CVAEの画像生成
• 数字のラベル情報で条件付けることにより「アナロジー」が生成できる[Kingma+
15]
– (𝑥, 𝑦)のペアからInferenceで𝑧を推論(𝑧~𝑞(𝑧|𝑥, 𝑦))
– ある𝑦 𝑞からGenerationを使って,対応する未知の画像𝑥 𝑞 ~𝑝(𝑥|𝑦 𝑞, 𝑧)を生成.
– このとき,推論した𝑧には(𝑥,𝑦)のペアに対応する「筆跡」のような情報が獲得されている.
(a) Handwriting styles for MNIST obtained by fixing theclass label and varying the2D latent variable z
(b) MNIST analogies (c) SVHN analogies
Figure 1: (a) Visualisation of handwriting styles learned by the model with 2D z-space. (b,c)
条件付ける情報について
• 条件付ける情報はラベルのような単純なものでなくてもよい
– ただし,ある程度圧縮された表現に変換することが望ましい
• 属性で条件づけて画像生成 [Larsen+ 15]
• 文書で条件付けて画像生成 [Mansimov+ 16]
17
Generative Query Network
18
本論文の問題設定
• データセット:
– {(𝑥𝑖
𝑘
, 𝑣𝑖
𝑘
)}(𝑖 ∈ 1, … , 𝑁 , 𝑘 ∈ {1, … , 𝐾})
• 𝑥𝑖
𝑘
はRGB画像
• 𝑣𝑖
𝑘
は視点(viewpoint)
– 𝑤(カメラの位置,3次元),𝑦(ヨー,1次元), 𝑝(ピッチ,1次元)
• 目的:
– M個の観測(文脈という)(𝑥𝑖
1,…,𝑀
, 𝑣𝑖
1,…,𝑀
)と任意の視点(クエリ)𝑣𝑖
𝑞
が与えられ
たもとで, 対応する𝑥𝑖
𝑞
を予測する.
– しかし,3次元空間を有限の2次元の観測で決定論的にカバーすることは困難
19
Fig. 1. Schematic illustration of the Ge
training scene ! from different viewpoin
to the representation network 2 are obse
output is the scene representation 4, whi
observations’ representations. The gener
representation to predict what the scene
generator can only succeed if 4 contains
A B
Repre
v2
v3
v1
v1
i
i i
i
Observation 1
Observation 3Observation 2
→条件付き確率モデル(深層生成モデル)を利用する
Generative Query Network
• グラフィカルモデル
20
• 変分下界(目的関数)
log 𝑝 𝑥 𝑞|𝑣 𝑞, 𝑟
≥ 𝔼 𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟 log
𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 𝜋(𝑧|𝑣 𝑞, 𝑟)
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
= 𝔼 𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟
− 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)]
• Generative Query Network(GQN)
– 文脈r = 𝑓(𝑥1,…,𝑀
, 𝑣1,…,𝑀
) とクエリ視点𝑣
𝑞
で条件づけたCVAE(Sohn ver.)
• 𝑟と𝑣
𝑞
を前述の説明での𝑦と考えればよい
• 𝑓は表現ネットワーク(2ページ先で説明)
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟
𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟)
𝑟
𝑣 𝑞
文脈とクエリ視点で条件づけた下での
クエリ画像の対数尤度
𝑥1,…,𝑀
, 𝑣1,…,𝑀
の情報を
含んだ「文脈」
確率モデル的には,このページを理解できればOK
GQNの解釈
• 変分下界(目的関数):
• 第1項では,クエリの答え𝑥 𝑞を再構成するように学習
– Inferenceでは,文脈(様々な視点と対応する画像)𝑟とクエリ𝑣 𝑞,及びその答え𝑥 𝑞 から𝑧を推論
– 様々なシーン𝑖についても同じ𝑧空間に推論し,Generationで再構成するように学習する.
– すると,𝑧ではそのシーン全体を表すコンパクトな表現が獲得されるようになる.
• そういう意味では,シーン全体の3D表現に対応するような「何か」は学習されているといえる.
– ただし,3Dモデルそのものが学習できた訳ではないことに注意
• 訓練データ内で想定している視点とは大きく異なる or 補完できない視点の場合は,うまく画像が生成されない可能性が高
い.
• 同様に,訓練データと全く異なる物体 or 環境のシーンからの画像生成は困難.
21
𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)]
GQNの解釈
• 変分下界(目的関数):
• 第2項では,InferenceとPriorが近づくように学習
– これによって,PriorとInferenceが同じような𝑧を推論できるようになる.
– テスト時にPriorを使えば,クエリの答え𝑥 𝑞を入れなくても,文脈𝑟とクエリ𝑣 𝑞 だけで対応する𝑧を推論でき
るようになる.
• つまり,デモ動画ではInferenceを使用していない
• 第2項がうまく学習できることはp15で説明したとおり.
22
𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)]
表現ネットワーク
• M個の観測(𝑥1,…,𝑀
, 𝑣1,…,𝑀
)を表現ネットワーク𝑓によって,一つの表現(文脈)r =
𝑓(𝑥1,…,𝑀
, 𝑣1,…,𝑀
)に要約する.
– 表現ネットワークのアーキテクチャは次のとおり
• 𝜓(𝑥, 𝑣)はCNNなど
• 各視点の平均(上式では総和)を取ることで,視点の順番に依存しない表現にす
ることができる.
– 順列ではなく組み合わせに対応した表現.
– 学習時に平均する視点の数をランダムに変更することで,任意の視点の数での推論が可能.
→(個人的に)GQN系のアーキテクチャで最も重要な部分
23
Fig. 1. Schematic illustration of the Generative Query Network. (A) Th
training scene ! from different viewpoints (in this example from &$
/
, &$
@
and
to the representation network 2 are observations made from viewpoints &$
/
output is the scene representation 4, which is obtained by element-wise sum
observations’ representations. The generation network, a recurrent latent va
representation to predict what the scene would look like from a different vi
A B
r1
r2
r
h1
z
GeneRepresentation network f
v2
v3
v1
v2v1 v3
Neural scene
representation
Query
Latent
+
i
i i
i i i
Observation 1
Observation 3Observation 2
表現ネットワークのアーキテクチャ
• 3種類のアーキテクチャを提案
24
64x64x(7+3)
v x
32x32x32 16x16x64 8x8x128 1x1x256
k=2x2
s=2x2
k=2x2
s=2x2
k=2x2
s=2x2
k=8x8
s=8x8
r
1x1x7
64x64x3
v
x
32x32x256 32x32x128 16x16x(256+7) 16x16x128
k=2x2
s=2x2
k=3x3
s=1x1
k=2x2
s=2x2
k=3x3
s=1x1
r
1x1x7
k=3x3
s=1x1
k=1x1
s=1x1
16x16x256 16x16x256
Concatenate
+
16x16x7
+
A
B
64x64x3
v
x
32x32x256 32x32x128 16x16x(256+7) 16x16x128
k=2x2
s=2x2
k=3x3
s=1x1
k=2x2
s=2x2
k=3x3
s=1x1
r
1x1x7
k=3x3
s=1x1
k=1x1
s=1x1
16x16x256 16x16x256
Concatenate
+
16x16x7
+
C
Pool
1x1x256
PyramidTowerPool
自己回帰モデルによる潜在変数への推論
• VAEでは,複雑な入力から潜在変数を推論するために,様々な工夫が取られてい
る.
– 潜在変数の多層化 [Sønderby+ 16]
– Normalizing flow [Rezende+ 15]
– DRAW [Gregor+ 15](後ほど補足)
• GQNでは,自己回帰モデルによって𝑧への柔軟な推論を実現
– 自己回帰モデル:尤度を複数の条件付き分布の積で表現するモデル.
– 本論文では,潜在変数を𝐿個のグループに分けて,各分布の積で表現.
• PriorとInferenceが該当
25
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
𝜋(𝑧|𝑣 𝑞
, 𝑟)
𝑟
𝑣 𝑞
Prior:
Inference:
PriorとInferenceのアーキテクチャ
• Prior(+ Generation)
– GQNではPriorとGenerationは一体化している.
– Generationでは,ガウス分布の分散は固定
26
– 状態の更新部分には,ConvLSTMを利用
※ただしこれらはネットワークアーキテクチャの話であり,GQNのコンセプト的に本質では
ないことに注意!!
• Inference
Prior + Generationのアーキテクチャ
27
cl
hl
rv
q
zl
ul
cl+1
hl+1
zl+1
ul+1
…
…
zL
… uL x~N(η(uL))
Cϴ Cϴ Cϴ
g g g
cl
hl
rv
q
ul
cl+1
hl+1
ul+1
concat concat
zl
concat
sigmoidtanhsigmoidsigmoid
tanhx
+x
x
+
Δ
k=4x4
s=4x4
k = 5x5
s = 1x1
5x5
1x1
5x5
1x1
5x5
1x1
k=1x1
s=1x1
ηϴ
g
g
g
g
g
g
g
g
g
ηϴ
π
k=5x5
s=1x1
A
B
FigureS2: Generation network architecture. Implementation detailsof onepossiblearchitec-
ture for the generation network, which given query viewpoint vq
and representation r defines
the distribution g✓(xq
|vq
, r) from which images can be sampled. Convolutional kernel and
stride sizesare indicated by k and s respectively. Convolutions of stride1 ⇥1 aresizepreserv-
ing, whilst all others are ‘valid’. (A) The architecture produces the parameters of the output
distribution through theapplication of asequence of computational cores Cg
✓ that takevq
and r
g
𝑔 𝑥 𝑣 𝑞, 𝑟 をモデル化している(PriorとGenerationが一体化)
・これらをまとめてGenerationと呼んでいる部分もあるので注意
Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes
training scene ! from different viewpoints (in this example from &$
/
, &$
@
and &$
A
). (B) The inputs
to the representation network 2 are observations made from viewpoints &$
/
and &$
@
, and the
output is the scene representation 4, which is obtained by element-wise summing of the
observations’ representations. The generation network, a recurrent latent variable model, uses the
representation to predict what the scene would look like from a different viewpoint &$
A
. The
generator can only succeed if 4 contains accurate and complete information about the contents of
the scene (e.g., the identities, positions, colours and counts of the objects, as well as the room’s
colours). Training via back-propagation across many scenes, randomizing the number of
A B
r1
r2
r
h1 h2 hL
z
Generation network gRepresentation network f
···
v2 v3
v1
v2
v1
v3
Neural scene
representation
Query
Latent
Rendering steps
Predicted
view
+
i
i i
i i i
Observation 1
Observation 3Observation 2
ちなみに,この図ではPrior(𝑧の
推論)は含まれていない
補足:DRAW
• DRAW: A Recurrent Neural Network For Image Generation [Gregor+ 15]
28
– VAEのencoderとdecoderの両方を,RNNによって自己回帰的にモデル化(左下)
– 複雑な画像を生成するためにも使われる [Gregor+ 16]
• DRAWでは,画像が各ステップで逐次的に生成されていく(右下)
• ただし[Gregor+ 15]に書かれているattention機構は,殆ど使われていないので注意!!
– GQNの元論文ではDRAWは使われていない
• しかし,こちらのほうが実装が容易&複雑な画像を生成できるので,GQNの関連研究&再現実装(Tensorflow,
Pytorch)ではDRAWが採用されている.
• 逆に言うと,アーキテクチャ自体はそれほど本質ではないことを示している.
実験
29
データ集合1:Rooms
• Rooms:
– ランダムな四角い部屋にランダムな数(1~3)の様々な物体を配置
• 部屋の壁のテクスチャは5種類: red, green, cerise, orange, yellow
• 部屋の床のテクスチャは3種類: yellow, white, blue
• 物体の形は7種類: box, sphere, cylinder, capsule, cone, icosahedron and triangle
– サイズ,位置,色はランダム.ライトもランダム
• その他のシーンのパラメータは省略
– 2万種類のシーンをレンダリング
• 「シーン」は,上記の様々な配置等のうち一つを指す.
• 各シーンについて,5つの視点の画像(解像度は64×64)を獲得
• 学習時は,各ミニバッチでランダムな数の視点を使用
– データセットは公開されている.
• https://github.com/deepmind/gqn-datasets
• 3つの難易度のroomsデータセットが公開されている
30
Scene
i=1
A PredictionObservationsB
Scene
i=2
Scene
i=3
Scene
i=4
v2 v3v1 vq
Prediction Truth Prediction Truth
Observation
Observation
C
i i i i
実験結果
• 未知のシーンにおける,文脈と任意のクエリ視点からの画像生成
– クエリ視点に対応した画像が生成できていることが定性的に確認できる.
31
Scene
i=1
A TruthPredictionObservationsB
Scene
i=2
Scene
i=3
Scene
i=4
v2
v3
v1
vq
vq
Prediction Truth Prediction Truth
Observation
Prediction Truth Prediction Truth
Observation
C
SamplesObservation
i i i i i
実験結果
• 潜在空間の可視化
– t-SNEによる潜在空間の埋め込み表現
– VAE(条件づけていないモデル)との比較
– GQNではシーンごとに表現が分離している(★と†に注目)
– 一方VAEでは,カメラの角度に依存している(まあ,当たり前).
32
実験結果
• Scene algebra
– 物体についてだけでなく,それらの位置についても足し算・引き算が可能
33
H
obs
Previous ob
A B
- =+
Blue
sphere
Red
sphere
Red
triangle
Blue
triangle
- =+
Red
sphere
Blue
sphere
Blue
cylinder
Red
cylinder
- =+
East light
sphere
West light
sphere
West light
triangle
East light
triangle
Pred
Pred
Pred
dueto
obs2
実験結果
• Bayesian Surprise
– 𝑦が与えられた下で,𝑥を観測したときのSurpriseを次式で計算(information gain).
𝐼𝐺 𝑥, 𝑦 = 𝐾𝐿[𝑞(𝑧|𝑥, 𝑦)|𝑝(𝑧|𝑦)]
– 文脈の視点数を変更したときのSurprise度合いを確認.
• 視点数が増えるごとに,Surpriseが減少していることがわかる.
34
Held out
observation
Previous observations
B
=
Red
triangle
Blue
triangle
=
Blue
cylinder
Red
cylinder
=
West light
triangle
East light
triangle
Pred
Pred
Pred
dueto
obs2
dueto
obs5
データ集合2: Shepard-Metzler objects
• Shepard-Metzler objects:
– 3Dの物体(3Dグリッド上でself-avoiding random walkによって作成)
– 色は各グリッドで7種類
– 視点は位置・ヨー・ピッチでパラメータ化
• ただし,物体からの距離は一定
– 2万種類のシーンをレンダリング
• 各シーンについて,15の視点の画像(解像度は64×64)を獲得
• 学習時は,各ミニバッチでランダムな数の視点を使用
35
実験結果
• 視点を変えて画像を生成
– 一貫性のある物体画像が獲得できていることがわかる
36
データ集合3:Mazes
• Mazes:
– 7×7グリッドのランダムな迷路
• エージェントはどの連続的な位置にも行ける.
• 1,2個の客室+複数の廊下.
• テクスチャはランダム
– 200万シーンをレンダリング
• 各シーンについて,300の視点の画像(解像度は64×64)を獲得
• 学習時は,各ミニバッチでランダムな数(1~20)の視点を使用
– 別のGeneratorを学習して,迷路の上からの画像も生成する
• 上からの視点は観測としては与えられない(表現ネットワークには影響しない).
37
1 2 30 4 5 6 7 8
実験結果
• Predicted uncertainty
– Predicted information gain(information gainの期待値)を利用.
𝑃𝐼𝐺 𝑥, 𝑦 = 𝐸 𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧|𝑦)[𝐼𝐺(𝑥, 𝑦)]
– 視点が増えるにつれて,不確実性が下がっていることがわかる.
38
Fig. 6. Partial observability and uncertainty. (A) The agent (GQN) records several
observations of a previously unencountered test maze (indicated by grey triangles). It is then
B
Predicted
uncertaintyObservationsViewpoints
1 2 3 0 1 2 30
Predicted
mapview
sample1
Predicted
mapview
sample2
A
Prediction Truth Prediction TruthObservations Observations
Decreasing uncertainty Decreasing uncertainty
データ集合4:Jaco arm
• Jaco arm:
– タスク:仮想環境上のアームをターゲットに近づけて留める
– 本実験では,次のような流れで学習する
• まずGQNによって,環境を完全に学習する.
• 学習したGQNの表現を使って,A3Cで強化学習
• 実験結果
– 視点が動いても,GQNの表現を使うことで適切に学習が進む.
39
Fig. 5. GQN representation enables more robust and data-efficient control. (A) The goal is
to learn to control a robotic arm to reach a randomly positioned coloured object. The controlling
policy observes the scene from a fixed or moving camera (grey). We pretrain a GQN
A
Pretraining views
B
TruthPredictionObservation
Policy
view
C
GQN representation
Raw pixels
Oracle
関連研究
40
Consistent GQN
• Consistent Generative Query Networks [Kumar+ 18, DeepMind]
– 背景:ビデオ予測などでは,入力と出力が連続的である必要がある.
– 任意の時間のフレームを生成できるモデルとしてCGQNを提案.
• 過去の文脈r = 𝑓(𝑥1,…,𝑀
, 𝑣1,…,𝑀
)と任意の時間𝑣 𝑞 𝑖からフレーム𝑥 𝑞 𝑖を予測
41
• グラフィカルモデル • 変分下界(目的関数)
log 𝑝 𝑥 𝑞1,…,𝑞 𝑁|𝑣 𝑞1,…,𝑞 𝑁, 𝑟
≥ 𝔼 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 log
𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁 𝜋(𝑧|𝑟)
𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟
= 𝔼 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 log
𝑖=1
𝑁
𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖
− 𝐾𝐿[𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 ||𝜋(𝑧|𝑟)]𝑥 𝑞 𝑖
𝑧
𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟
𝜋(𝑧|𝑟)
𝑟
𝑣 𝑞 𝑖
※比較しやすいように,notationはGQN論文に合わせています.
𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁
=
𝑖=1
𝑁
𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖
𝑖 ∈ 1, … , 𝑁
GQN vs. CGQN
• 実験:ボックスの未知の側の数字を適切に予測できるか?
– CGQNでは,各視点について一貫性のある予測ができる(T1とT2で同じ).
– GQNでは,T1とT2で異なる数字が予測される -> 視点による一貫性がない
42
Figure 6: Test-set negativeELBO against number of training steps (lower isbetter).
Figure 7: A cube in a room, with MNIST digits engraved on each face (test-set scene). The blue
conesarewherethecontext frameswerecaptured from. Thered conesarewherethemodel isqueried.
The context frames seethreesides of thecube, but themodels aretasked to sample from thefourth,
unseen, side. GQN (right column) independently samples a0 and 7 for the unseen side, resulting in
an inconsistent scene. CGQN samples aconsistent digit (2 or 9) for the unseen cubeface.
GQN vs. CGQN
• GQNとの違い:
– 確率モデル的な違い:
• 一貫性のある𝑧を獲得するために,Priorでは文脈𝑟のみから𝑧を推論
• Generationは𝑧のみから生成
– 複数系列のクエリを簡単に扱えるようになった(各系列で分布が独立になる)
– アーキテクチャ的な違い:
• 𝑧への推論(InferenceとPrior)にDRAWを使用
-> GQNよりもシンプルかつ一般的なモデル
43
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟)
𝑟
𝑣 𝑞
GQN
𝑥 𝑞 𝑖
𝑧
𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟
𝜋(𝑧|𝑟)
𝑟
𝑣 𝑞 𝑖
𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁
=
𝑖=1
𝑁
𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖
𝑖 ∈ 1, … , 𝑁
CGQN
Neural Processes
• Neural Processes [Garnelo+ 18, DeepMind]
– (ざっくりいうと)Gaussian ProcessのカーネルをDNNに置き換えたモデル
• Globalな潜在変数を導入していることが特徴.
• 詳しくはこちらのスライドを参照(DL輪読会資料):
https://www.slideshare.net/DeepLearningJP2016/dlconditional-neural-
processes?ref=https://deeplearning.jp/neural-processes/
– 複数の任意の点とその値(文脈)が与えられた下で,未知の点の値を予測する.
• あれ,GQNっぽい
44
Neural Processes
10 100 300 784
Number of context points
ContextSample1Sample2Sample3
15 30 90 1024
Number of context points
ContextSample1Sample2Sample3
Figure 4. Pixel-wise regression on MNIST and CelebA The diagram on the left visualises how pixel-wise image completion can
任意の文脈を与えたときの回帰予測
(文脈が増えると分散が小さくなる)
任意の文脈を与えたときの画像生成
(文脈が増えると画像のバリエーションが小さくなる)
Neural Process vs. CGQN
• CGQNとの違い:
– 確率モデル的にはCGQNと同じ
– zへの推論にRNNを使わず,PriorとInferenceで同じencoderを使いまわしている(アーキテクチャ的な
違い)
– 論文に描かれているグラフィカルモデル(左)とアーキテクチャ(右)
• 左のグラフィカルモデルではInferenceが描かれていないので注意
45
SLIM
• Encoding Spatial Relations from Natural Language [Ramalho+ 18, DeepMind]
– GQNをベースに,言語の言い換えに対して同じ画像を生成する(不変性のある表現を獲得する)モデルであ
るSLIMを提案
46
Figure 2: Diagram of our model. A representation network parses multiple descriptions of ascene
from different viewpoints by taking in cameracoordinates and atextual caption. Therepresentations
for each viewpoint are aggregated into a scene representation vector r which is then used by a
– 自然言語𝑑1,…,𝑀
と視点𝑣1,…,𝑀
で構成される文脈r = 𝑓(𝑑1,…,𝑀
, 𝑣1,…,𝑀
)が与えられたとき, 未知の視点𝑣
𝑞
から
対応する画像𝑥
𝑞
を生成するように学習
• 上の図では,𝑐が視点
SLIMのグラフィカルモデルと変分下界
– 自然言語𝑑1,…,𝑀
と視点𝑣1,…,𝑀
で構成される文脈r = 𝑓(𝑑1,…,𝑀
, 𝑣1,…,𝑀
)が与えられたとき, 未知
の視点𝑣
𝑞
から対応する画像𝑥
𝑞
を生成するように学習
– 元論文では自然言語と画像の両方に𝑑が使われていたり,図(前ページ)と文中の説明があってなかった
りして分かりづらいので,あっているか微妙
47
• グラフィカルモデル
• 変分下界(目的関数)
log 𝑝 𝑥 𝑞|𝑣 𝑞, 𝑟
≥ 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 log
𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 𝑝(𝑧)
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
= 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 log 𝑔 𝑥 𝑞
𝑧, 𝑣 𝑞
, 𝑟
− 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 ||𝑝(𝑧)]𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟
𝑟
𝑣 𝑞
𝑝(𝑧)
SLIM vs. GQN
• GQNとの違い:
– 確率モデル的な違い:
• Priorが標準ガウス分布(Kingma ver.と同じ)
• Inferenceにrを使っていない(クエリ情報のみ)
– アーキテクチャ的な違い:
• InferenceとGenerationの両方をDRAWでモデル化
• 文脈rは言語と視点のconcat(GQN等では画像と視点)
48
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟
𝑟
𝑣 𝑞
GQNSLIM
𝑝(𝑧)
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
𝑔 𝑥 𝑞
𝑧, 𝑣 𝑞
, 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟)
𝑟
𝑣 𝑞
GQNによるカメラ位置の推定
• Learning models for visual 3D localization with implicit mapping [Rosenbaum+ 18,
DeepMind]
– GQNを利用して,自己位置推定のタスクを解く
• Minecraftからシーンのデータを作成.
– 文脈とクエリ(目標)画像から,視点(位置)を推定する
• 普通のGQNと逆の設定.
• 右画像の緑が予測した視点.
49
Figure 1: The Minecraft random walk dataset for localization in 3D scenes. Wegenerate random
trajectories in the Minecraft environment, and collect images along the trajectory labelled by the
camera pose coordinates (x,y,z yaw and pitch). Bottom: Images from random scenes. Top: The
localization problem setting - for a new trajectory in a new scene, given a set of images along
thetrajectory and their corresponding cameraposes (the ‘context’), predict the camerapose of an
additional observed imagein thetrajectory (the‘target’, shown in green).
hasseen increased usefor localization and SLAM problemsin recent years[22, 6, 13], most methods
still rely on pre-specified map representations. Agentstrained with reinforcement learning havebeen
demonstrated to solvenavigation tasksthat implicitly require localization and mapping [11, 3, 1, 20],
suggesting that it ispossible to learn theseabilities without such pre-specification. Other methods
Reversed-GQN
• 位置推定を行うために2通りの方法を提案
– Generative:arg max
𝑣 𝑞
log 𝑝 𝑥 𝑞
|𝑣 𝑞
, 𝑟 + log 𝑝 𝑣 𝑞
|𝑟 となる𝑣 𝑞
を求める
• log 𝑝 𝑥 𝑞
|𝑣 𝑞
, 𝑟 はGQN
– Discriminative: log 𝑝 𝑣 𝑞|𝑥 𝑞, 𝑟 を直接モデル化(Reversed-GQN)
– モデルアーキテクチャはいずれもDRAWを使用
50
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
𝑔 𝑣 𝑞
𝑧, 𝑥 𝑞
, 𝑟𝜋(𝑧|𝑥 𝑞
, 𝑟)
𝑟
𝑣 𝑞
※元論文ではモデルの詳細が書かれていないので,違う可能性あり
Reversed-GQN
𝑥 𝑞
𝑧
𝑞 𝑧 𝑥 𝑞
, 𝑣 𝑞
, 𝑟
𝑔 𝑥 𝑞
𝑧, 𝑣 𝑞
, 𝑟𝜋(𝑧|𝑣 𝑞
, 𝑟)
𝑟
𝑣 𝑞
GQN
GQN / Reversed-GQN + Attention
• より大規模な世界を学習するために,アテンション機構を導入
– 大規模な環境を学習するために利用
– DRAWのattentionとは異なるので注意
51
実験結果
• Generative(真ん中)とDiscriminative(下)の出力
– 文脈は20視点
– 予測した確率の高いところに,正解の位置(緑)があることが確認できる.
52
ground
truth
samples
camera pose
probability
maps
Figure 5: Generated samples from the generativemodel (middle), and thewhole output distribution
for the discriminative model (bottom). Both were computed using the attention models, and each
imageand posemap isfrom adifferent sceneconditioned on 20 context images. Thesamplescapture
much of the structure of the scenes including the shape of mountains, the location of lakes, the
presence of largetrees etc. (seesupplementary video for moresamples). The distribution of camera
GQNと「世界モデル」
53
GQNと世界モデル
• これらのGQN系論文は「世界モデル」研究の一分野と考えることができる.
• 世界モデル(world model):
– 外界からの刺激を元に,外界世界をシミュレートするモデル
– 内部モデル(internal model)や力学モデル(dynamics model)もほぼ同じ概念
– Haらの論文タイトル[Ha+ 18]としても有名
• 説明スライド: https://www.slideshare.net/masa_s/ss-97848402
• GQN系は,視点(と画像)で条件付けた世界モデルを学習している.
– 世界全体をそのままモデル化するよりも効率的
– [Ha+ 18]では,条件付せずにそのまま学習していた(なので1つの小規模なシーンしか学習できな
かった)
54
刺激
世界モデル
世界モデル系論文を理解する上での(個人的な)ポイント
• 「確率モデル」と「ネットワークアーキテクチャ」をそれぞれ理解することが
重要
– 最初に確率モデルを確認して手法の概要をつかむ
– 次にネットワークアーキテクチャ(大体appendixにある)を読むと良さそう(経験上)
• 今回(GQN)の場合・・・
– 確率モデルはCVAEそのもの(確率モデル的には新規性はあまりない)
– 𝑧への推論にConvLSTMを利用していたり,表現ネットワークによって複数の視点の情報を組み合わ
せで統合している(ネットワークアーキテクチャ的な新規性)
• 実際には,これらが相互に関連している事が多いので注意が必要
– DRAWは確率モデルとアーキテクチャが一体化している.
55
GQN系世界モデルの課題(個人的な感想)
• 時系列情報の扱い
– GQN系は,過去の系列情報を平均している.
• 順列ではなく,組み合わせを考えることができるという利点がある(GQN系の一番の貢献かもしれない).
• その一方で,時系列に含まれる情報を獲得できないという欠点もある.
– 空間だけでなく時間を含めて世界を学習するためには,時系列情報をどのように扱うかを考える必
要がある.
• 世界を学習しきれない場合の対応
– 現実には,世界を学習し切ることは不可能(我々人間も世界のすべてを知っているわけではない)
– 現実世界で適用するためには,世界モデルを学習しきれない中でどのように行動するかを考えるこ
とが必要
• 好奇心の導入など
• どのように効率的に世界を学習するかを考えることも重要
56
まとめ
57
まとめ
• 今回話したこと
– 深層生成モデル(VAE〜CVAE)の基礎
– GQN論文の説明
– GQNの関連研究と世界モデルとの関連
• 感想
– 「何を条件付けるか」という戦い
– 世界モデル系はどんどんアーキテクチャが込み入ってきているので(TD-VAEとか),
どこが重要なのかをしっかり確認する必要がある.
58

Contenu connexe

Tendances

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 

Tendances (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 

Similaire à [DL輪読会]GQNと関連研究,世界モデルとの関係について

PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門uranishi
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...nkazuki
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
Inside of excel 方眼紙撲滅委員会 #pyfes
Inside of excel 方眼紙撲滅委員会 #pyfesInside of excel 方眼紙撲滅委員会 #pyfes
Inside of excel 方眼紙撲滅委員会 #pyfesTakeshi Komiya
 
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageKink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageTaku Miyakawa
 
Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用nmaro
 

Similaire à [DL輪読会]GQNと関連研究,世界モデルとの関係について (20)

PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
 
SeRanet
SeRanetSeRanet
SeRanet
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
Inside of excel 方眼紙撲滅委員会 #pyfes
Inside of excel 方眼紙撲滅委員会 #pyfesInside of excel 方眼紙撲滅委員会 #pyfes
Inside of excel 方眼紙撲滅委員会 #pyfes
 
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageKink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based language
 
Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Dernier (9)

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

[DL輪読会]GQNと関連研究,世界モデルとの関係について

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ GQNと関連研究,世界モデルとの関係について Presenter: Masahiro Suzuki, Matsuo Lab
  • 2. 輪読内容について • Neural scene representation and rendering – S. M. Ali Eslami, Danilo J. Rezende, et al. • Rezendeは,VAEやnormalizing flowを提案した人 • Deep Mind (Last authorはDemis Hassabis) • Scienceに採録 • Generative Query Network(GQN)を提案した論文 – 本発表では,GQNの説明のために深層生成モデルの基礎から順番に話します. – 合わせて,関連研究(全部DeepMind発)や世界モデルとの関連についても説明します. • 本論文についての私見 – 確率モデル的には新しいことを提案しているわけではなく,従来の研究の応用. – 学習できるアーキテクチャを提案した&実際に学習できることを示したことに意味があると考えていま す. – 世界モデルの研究的には非常に重要な論文で,今後こういう研究はどんどん増えていくのは確実(既 にDeepMindが量産している) →どの部分が重要なのかをおさえることが大事 2
  • 3. どういう研究? • ある複数の視点における画像を元に,別の視点の画像を生成するGenerative Query Network(GQN)というモデルを提案した. – 動画で見ると衝撃的(https://www.youtube.com/watch?v=RBJFngN33Qo) • 2D画像から3Dモデルを作成した?と話題に – ただし多少誤解がある気がするので,基礎となる深層生成モデルから順番に説明していきます. 3 Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes training scene ! from different viewpoints (in this example from &$ / , &$ @ and &$ A ). (B) The inputs to the representation network 2 are observations made from viewpoints &$ / and &$ @ , and the A B r1 r2 r h1 h2 hL z Generation network gRepresentation network f ··· v2 v3 v1 v2v1 v3 Neural scene representation Query Latent Rendering steps Predicted view + i i i i i i Observation 1 Observation 3Observation 2
  • 4. 目次 • 深層生成モデル(VAE〜CVAE)の概要 • Generative Query Network • 実験 • 関連研究 • GQNと「世界モデル」 • まとめ 4
  • 6. 深層生成モデル • 生成モデルの確率分布を深層ニューラルネットワーク(DNN)で構成したもの – 生成モデル:データの生成過程をモデル化 • 代表的な深層生成モデル – 確率分布を明示的に設定(尤度ベース) • Variational Autoencoder(VAE) – 対数尤度の変分下界を最大化 • 自己回帰モデル – 自己回帰(条件付き分布の積)によって尤度を直接モデル化&最大化 • Flow-based model – 可逆かつヤコビアンが容易に計算可能な関数を用いて尤度を直接モデル化&最大化 – 確率分布を暗黙的に仮定 • Generative adversarial network(GAN) – 真の分布との密度比を敵対的に学習(詳しくはhttps://www.slideshare.net/masa_s/gan-83975514) 6 観測データ 𝑝 𝑥|𝜃 生成モデル 生成 学習
  • 7. Variational Autoencoder • Variational autoencoder (VAE) [Kingma+ 13][Rezende+ 14] – Inference(encoder)𝑞(𝑧|𝑥) とGeneration(decoder)𝑝(𝑥|𝑧) によって構成される深層生成モデル • 確率分布は,それぞれDNNでモデル化 – Inferenceで入力𝑥を𝑧にencodeし,Generationで𝑧から𝑥をdecode(再構成)する. – 入力𝑥には画像や文書,音声情報などが使われる. ※DNNによる確率分布のパラメータ化方法や,reparameterization trickなどの話は省略します 7 𝑧Inference 𝑞(𝑧|𝑥) Generation 𝑝(𝑥|𝑧)𝑥 𝑥 再構成入力
  • 8. Variational Autoencoder • グラフィカルモデル 8 • 変分下界(目的関数) log 𝑝 𝑥 ≥ 𝔼 𝑞 𝑧 𝑥 log 𝑝 𝑥 𝑧 𝑝(𝑧) 𝑞 𝑧 𝑥 = 𝔼 𝑞 𝑧 𝑥 log 𝑝(𝑥|𝑧) − 𝐾𝐿[𝑞 𝑧 𝑥 ||𝑝(𝑧)] • ネットワーク構造 𝑥 𝑧 𝑞(𝑧|𝑥) 𝑝(𝑥|𝑧) 𝑝(𝑧) 𝑧Inference 𝑞(𝑧|𝑥) Generation 𝑝(𝑥|𝑧)𝑥 𝑥 再構成入力 Prior Inference Generation 対数尤度 (負の)再構成誤差項 正則化項 -> 変分下界を最大化するように,𝑞と𝑝を学習
  • 9. 潜在空間の学習 • 2次元の潜在空間の可視化(MNISTデータセット) – 潜在変数𝑧の値を変更し,そのときの画像をGeneration 𝑝(𝑥|𝑧)によって生成 – 画像が連続的に変化しており,潜在空間上で多様体学習ができていることがわかる. [Kingma+ 13]より
  • 11. Conditional Variational Autoencoder(Kingma ver.) • Conditional Variational autoencoder (CVAE) [Kingma+ 14] – VAEに任意の情報𝑦を「条件づけた(conditioned)」モデル • 元論文ではM2モデルと呼ばれているもの • ここでは,CVAE(Kingma ver.)と呼ぶ. – 𝑦を操作することで,対応するxを生成することができる. – 𝑧上では,𝑦に依存しない表現を獲得することができる. • ただし,実際にはInferenceで依存関係が存在している. 11 𝑦 𝑧Inference 𝑞(𝑧|𝑥, 𝑦) Generation 𝑝(𝑥|𝑧, 𝑦)𝑥 𝑥 再構成入力
  • 12. Conditional Variational Autoencoder(Kingma ver.) • グラフィカルモデル 12 • 変分下界(目的関数) log 𝑝 𝑥|𝑦 ≥ 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧) 𝑞 𝑧 𝑥, 𝑦 = 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝(𝑥|𝑧, 𝑦) − 𝐾𝐿[𝑞 𝑧 𝑥, 𝑦 ||𝑝(𝑧)] • ネットワーク構造 入力 𝑥 再構成 𝑥 𝑧Encoder 𝑞(𝑧|𝑥, 𝑦) Decoder 𝑝(𝑥|𝑧, 𝑦) 𝑦 𝑥 𝑧 𝑞(𝑧|𝑥, 𝑦) 𝑝(𝑥|𝑧, 𝑦) 𝑦𝑝(𝑧)
  • 13. Conditional Variational Autoencoder(Sohn ver.) • CVAE(Sohn ver.)[Sohn+ 15] – Priorを𝑝(𝑧)から𝑝(𝑧|𝑦)に変更. • PriorもDNNでモデル化する. • 最初に「CVAE」として提案されたのはこちら. – 条件づけたPriorによって,次の利点がある. • 生成モデルが,より柔軟な形になる. • Priorを用いて,𝑦から直接潜在変数𝑧を推論できる(Inferenceでは𝑥と𝑦の両方が必要). 13 𝑦 𝑧Inference 𝑞(𝑧|𝑥, 𝑦) Generation 𝑝(𝑥|𝑧, 𝑦)𝑥 𝑥 再構成入力 𝑧Prior 𝑝(𝑧|𝑦)
  • 14. Conditional Variational Autoencoder(Sohn ver.) • グラフィカルモデル 14 • 変分下界(目的関数) log 𝑝 𝑥|𝑦 ≥ 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧|𝑦) 𝑞(𝑧|𝑥, 𝑦) = 𝔼 𝑞 𝑧 𝑥, 𝑦 log 𝑝(𝑥|𝑧, 𝑦) − 𝐾𝐿[𝑞(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)] • ネットワーク構造 𝑥 𝑧 𝑞(𝑧|𝑥, 𝑦) 𝑝(𝑥|𝑧, 𝑦) 𝑝(𝑧|𝑦) 𝑦
  • 15. 補足: 𝐾𝐿[𝑝(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)]の最小化について • 𝐾𝐿[𝑝(𝑧|𝑥, 𝑦)||𝑝(𝑧|𝑦)]は,近づける先の分布𝑝(𝑧|𝑥, 𝑦)の方が不確かさが小さい – 直感的には, 𝑝(𝑧|𝑦)は尖った分布に近づいてしまい,学習が安定しないと考えられる(左) – 実際はKL項はデータ分布の期待値であり,式変形するとデータ分布での期待値𝑝 𝑎𝑣𝑔(𝑧|𝑦)と𝑝(𝑧|𝑦)の KLダイバージェンスになる(右) • そのため,学習は安定する. • CVAE以外の利用: – マルチモーダル学習では,単一モダリティ入力 𝑦のInference 𝑞(𝑧|𝑦)を学習するために導入されている. • 初出はJMVAE [Suzuki+ 16],その後SCAN [Higgins+ 17]などでも利用されている. • 上記の証明は, JMVAEの説明として[Vedantam+ 17]のAppendixに書かれている. – 世界モデル研究では標準的な方法になりつつある. • 最近では,TD-VAE [Gregor+ 18]でも同様の方法が使われている. 15 𝑝(𝑧|𝑥, 𝑦) 𝑝(𝑧|𝑦) 𝑝 𝑎𝑣𝑔(𝑧|𝑦) = 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥|𝑦)[𝑝 𝑧 𝑥, 𝑦 ] 𝑝(𝑧|𝑦)
  • 16. CVAEの画像生成 • 数字のラベル情報で条件付けることにより「アナロジー」が生成できる[Kingma+ 15] – (𝑥, 𝑦)のペアからInferenceで𝑧を推論(𝑧~𝑞(𝑧|𝑥, 𝑦)) – ある𝑦 𝑞からGenerationを使って,対応する未知の画像𝑥 𝑞 ~𝑝(𝑥|𝑦 𝑞, 𝑧)を生成. – このとき,推論した𝑧には(𝑥,𝑦)のペアに対応する「筆跡」のような情報が獲得されている. (a) Handwriting styles for MNIST obtained by fixing theclass label and varying the2D latent variable z (b) MNIST analogies (c) SVHN analogies Figure 1: (a) Visualisation of handwriting styles learned by the model with 2D z-space. (b,c)
  • 19. 本論文の問題設定 • データセット: – {(𝑥𝑖 𝑘 , 𝑣𝑖 𝑘 )}(𝑖 ∈ 1, … , 𝑁 , 𝑘 ∈ {1, … , 𝐾}) • 𝑥𝑖 𝑘 はRGB画像 • 𝑣𝑖 𝑘 は視点(viewpoint) – 𝑤(カメラの位置,3次元),𝑦(ヨー,1次元), 𝑝(ピッチ,1次元) • 目的: – M個の観測(文脈という)(𝑥𝑖 1,…,𝑀 , 𝑣𝑖 1,…,𝑀 )と任意の視点(クエリ)𝑣𝑖 𝑞 が与えられ たもとで, 対応する𝑥𝑖 𝑞 を予測する. – しかし,3次元空間を有限の2次元の観測で決定論的にカバーすることは困難 19 Fig. 1. Schematic illustration of the Ge training scene ! from different viewpoin to the representation network 2 are obse output is the scene representation 4, whi observations’ representations. The gener representation to predict what the scene generator can only succeed if 4 contains A B Repre v2 v3 v1 v1 i i i i Observation 1 Observation 3Observation 2 →条件付き確率モデル(深層生成モデル)を利用する
  • 20. Generative Query Network • グラフィカルモデル 20 • 変分下界(目的関数) log 𝑝 𝑥 𝑞|𝑣 𝑞, 𝑟 ≥ 𝔼 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 𝜋(𝑧|𝑣 𝑞, 𝑟) 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 = 𝔼 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)] • Generative Query Network(GQN) – 文脈r = 𝑓(𝑥1,…,𝑀 , 𝑣1,…,𝑀 ) とクエリ視点𝑣 𝑞 で条件づけたCVAE(Sohn ver.) • 𝑟と𝑣 𝑞 を前述の説明での𝑦と考えればよい • 𝑓は表現ネットワーク(2ページ先で説明) 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟) 𝑟 𝑣 𝑞 文脈とクエリ視点で条件づけた下での クエリ画像の対数尤度 𝑥1,…,𝑀 , 𝑣1,…,𝑀 の情報を 含んだ「文脈」 確率モデル的には,このページを理解できればOK
  • 21. GQNの解釈 • 変分下界(目的関数): • 第1項では,クエリの答え𝑥 𝑞を再構成するように学習 – Inferenceでは,文脈(様々な視点と対応する画像)𝑟とクエリ𝑣 𝑞,及びその答え𝑥 𝑞 から𝑧を推論 – 様々なシーン𝑖についても同じ𝑧空間に推論し,Generationで再構成するように学習する. – すると,𝑧ではそのシーン全体を表すコンパクトな表現が獲得されるようになる. • そういう意味では,シーン全体の3D表現に対応するような「何か」は学習されているといえる. – ただし,3Dモデルそのものが学習できた訳ではないことに注意 • 訓練データ内で想定している視点とは大きく異なる or 補完できない視点の場合は,うまく画像が生成されない可能性が高 い. • 同様に,訓練データと全く異なる物体 or 環境のシーンからの画像生成は困難. 21 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)]
  • 22. GQNの解釈 • 変分下界(目的関数): • 第2項では,InferenceとPriorが近づくように学習 – これによって,PriorとInferenceが同じような𝑧を推論できるようになる. – テスト時にPriorを使えば,クエリの答え𝑥 𝑞を入れなくても,文脈𝑟とクエリ𝑣 𝑞 だけで対応する𝑧を推論でき るようになる. • つまり,デモ動画ではInferenceを使用していない • 第2項がうまく学習できることはp15で説明したとおり. 22 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞, 𝑟 ||𝜋(𝑧|𝑣 𝑞, 𝑟)]
  • 23. 表現ネットワーク • M個の観測(𝑥1,…,𝑀 , 𝑣1,…,𝑀 )を表現ネットワーク𝑓によって,一つの表現(文脈)r = 𝑓(𝑥1,…,𝑀 , 𝑣1,…,𝑀 )に要約する. – 表現ネットワークのアーキテクチャは次のとおり • 𝜓(𝑥, 𝑣)はCNNなど • 各視点の平均(上式では総和)を取ることで,視点の順番に依存しない表現にす ることができる. – 順列ではなく組み合わせに対応した表現. – 学習時に平均する視点の数をランダムに変更することで,任意の視点の数での推論が可能. →(個人的に)GQN系のアーキテクチャで最も重要な部分 23 Fig. 1. Schematic illustration of the Generative Query Network. (A) Th training scene ! from different viewpoints (in this example from &$ / , &$ @ and to the representation network 2 are observations made from viewpoints &$ / output is the scene representation 4, which is obtained by element-wise sum observations’ representations. The generation network, a recurrent latent va representation to predict what the scene would look like from a different vi A B r1 r2 r h1 z GeneRepresentation network f v2 v3 v1 v2v1 v3 Neural scene representation Query Latent + i i i i i i Observation 1 Observation 3Observation 2
  • 24. 表現ネットワークのアーキテクチャ • 3種類のアーキテクチャを提案 24 64x64x(7+3) v x 32x32x32 16x16x64 8x8x128 1x1x256 k=2x2 s=2x2 k=2x2 s=2x2 k=2x2 s=2x2 k=8x8 s=8x8 r 1x1x7 64x64x3 v x 32x32x256 32x32x128 16x16x(256+7) 16x16x128 k=2x2 s=2x2 k=3x3 s=1x1 k=2x2 s=2x2 k=3x3 s=1x1 r 1x1x7 k=3x3 s=1x1 k=1x1 s=1x1 16x16x256 16x16x256 Concatenate + 16x16x7 + A B 64x64x3 v x 32x32x256 32x32x128 16x16x(256+7) 16x16x128 k=2x2 s=2x2 k=3x3 s=1x1 k=2x2 s=2x2 k=3x3 s=1x1 r 1x1x7 k=3x3 s=1x1 k=1x1 s=1x1 16x16x256 16x16x256 Concatenate + 16x16x7 + C Pool 1x1x256 PyramidTowerPool
  • 25. 自己回帰モデルによる潜在変数への推論 • VAEでは,複雑な入力から潜在変数を推論するために,様々な工夫が取られてい る. – 潜在変数の多層化 [Sønderby+ 16] – Normalizing flow [Rezende+ 15] – DRAW [Gregor+ 15](後ほど補足) • GQNでは,自己回帰モデルによって𝑧への柔軟な推論を実現 – 自己回帰モデル:尤度を複数の条件付き分布の積で表現するモデル. – 本論文では,潜在変数を𝐿個のグループに分けて,各分布の積で表現. • PriorとInferenceが該当 25 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 𝜋(𝑧|𝑣 𝑞 , 𝑟) 𝑟 𝑣 𝑞 Prior: Inference:
  • 26. PriorとInferenceのアーキテクチャ • Prior(+ Generation) – GQNではPriorとGenerationは一体化している. – Generationでは,ガウス分布の分散は固定 26 – 状態の更新部分には,ConvLSTMを利用 ※ただしこれらはネットワークアーキテクチャの話であり,GQNのコンセプト的に本質では ないことに注意!! • Inference
  • 27. Prior + Generationのアーキテクチャ 27 cl hl rv q zl ul cl+1 hl+1 zl+1 ul+1 … … zL … uL x~N(η(uL)) Cϴ Cϴ Cϴ g g g cl hl rv q ul cl+1 hl+1 ul+1 concat concat zl concat sigmoidtanhsigmoidsigmoid tanhx +x x + Δ k=4x4 s=4x4 k = 5x5 s = 1x1 5x5 1x1 5x5 1x1 5x5 1x1 k=1x1 s=1x1 ηϴ g g g g g g g g g ηϴ π k=5x5 s=1x1 A B FigureS2: Generation network architecture. Implementation detailsof onepossiblearchitec- ture for the generation network, which given query viewpoint vq and representation r defines the distribution g✓(xq |vq , r) from which images can be sampled. Convolutional kernel and stride sizesare indicated by k and s respectively. Convolutions of stride1 ⇥1 aresizepreserv- ing, whilst all others are ‘valid’. (A) The architecture produces the parameters of the output distribution through theapplication of asequence of computational cores Cg ✓ that takevq and r g 𝑔 𝑥 𝑣 𝑞, 𝑟 をモデル化している(PriorとGenerationが一体化) ・これらをまとめてGenerationと呼んでいる部分もあるので注意 Fig. 1. Schematic illustration of the Generative Query Network. (A) The agent observes training scene ! from different viewpoints (in this example from &$ / , &$ @ and &$ A ). (B) The inputs to the representation network 2 are observations made from viewpoints &$ / and &$ @ , and the output is the scene representation 4, which is obtained by element-wise summing of the observations’ representations. The generation network, a recurrent latent variable model, uses the representation to predict what the scene would look like from a different viewpoint &$ A . The generator can only succeed if 4 contains accurate and complete information about the contents of the scene (e.g., the identities, positions, colours and counts of the objects, as well as the room’s colours). Training via back-propagation across many scenes, randomizing the number of A B r1 r2 r h1 h2 hL z Generation network gRepresentation network f ··· v2 v3 v1 v2 v1 v3 Neural scene representation Query Latent Rendering steps Predicted view + i i i i i i Observation 1 Observation 3Observation 2 ちなみに,この図ではPrior(𝑧の 推論)は含まれていない
  • 28. 補足:DRAW • DRAW: A Recurrent Neural Network For Image Generation [Gregor+ 15] 28 – VAEのencoderとdecoderの両方を,RNNによって自己回帰的にモデル化(左下) – 複雑な画像を生成するためにも使われる [Gregor+ 16] • DRAWでは,画像が各ステップで逐次的に生成されていく(右下) • ただし[Gregor+ 15]に書かれているattention機構は,殆ど使われていないので注意!! – GQNの元論文ではDRAWは使われていない • しかし,こちらのほうが実装が容易&複雑な画像を生成できるので,GQNの関連研究&再現実装(Tensorflow, Pytorch)ではDRAWが採用されている. • 逆に言うと,アーキテクチャ自体はそれほど本質ではないことを示している.
  • 30. データ集合1:Rooms • Rooms: – ランダムな四角い部屋にランダムな数(1~3)の様々な物体を配置 • 部屋の壁のテクスチャは5種類: red, green, cerise, orange, yellow • 部屋の床のテクスチャは3種類: yellow, white, blue • 物体の形は7種類: box, sphere, cylinder, capsule, cone, icosahedron and triangle – サイズ,位置,色はランダム.ライトもランダム • その他のシーンのパラメータは省略 – 2万種類のシーンをレンダリング • 「シーン」は,上記の様々な配置等のうち一つを指す. • 各シーンについて,5つの視点の画像(解像度は64×64)を獲得 • 学習時は,各ミニバッチでランダムな数の視点を使用 – データセットは公開されている. • https://github.com/deepmind/gqn-datasets • 3つの難易度のroomsデータセットが公開されている 30 Scene i=1 A PredictionObservationsB Scene i=2 Scene i=3 Scene i=4 v2 v3v1 vq Prediction Truth Prediction Truth Observation Observation C i i i i
  • 31. 実験結果 • 未知のシーンにおける,文脈と任意のクエリ視点からの画像生成 – クエリ視点に対応した画像が生成できていることが定性的に確認できる. 31 Scene i=1 A TruthPredictionObservationsB Scene i=2 Scene i=3 Scene i=4 v2 v3 v1 vq vq Prediction Truth Prediction Truth Observation Prediction Truth Prediction Truth Observation C SamplesObservation i i i i i
  • 32. 実験結果 • 潜在空間の可視化 – t-SNEによる潜在空間の埋め込み表現 – VAE(条件づけていないモデル)との比較 – GQNではシーンごとに表現が分離している(★と†に注目) – 一方VAEでは,カメラの角度に依存している(まあ,当たり前). 32
  • 33. 実験結果 • Scene algebra – 物体についてだけでなく,それらの位置についても足し算・引き算が可能 33 H obs Previous ob A B - =+ Blue sphere Red sphere Red triangle Blue triangle - =+ Red sphere Blue sphere Blue cylinder Red cylinder - =+ East light sphere West light sphere West light triangle East light triangle Pred Pred Pred dueto obs2
  • 34. 実験結果 • Bayesian Surprise – 𝑦が与えられた下で,𝑥を観測したときのSurpriseを次式で計算(information gain). 𝐼𝐺 𝑥, 𝑦 = 𝐾𝐿[𝑞(𝑧|𝑥, 𝑦)|𝑝(𝑧|𝑦)] – 文脈の視点数を変更したときのSurprise度合いを確認. • 視点数が増えるごとに,Surpriseが減少していることがわかる. 34 Held out observation Previous observations B = Red triangle Blue triangle = Blue cylinder Red cylinder = West light triangle East light triangle Pred Pred Pred dueto obs2 dueto obs5
  • 35. データ集合2: Shepard-Metzler objects • Shepard-Metzler objects: – 3Dの物体(3Dグリッド上でself-avoiding random walkによって作成) – 色は各グリッドで7種類 – 視点は位置・ヨー・ピッチでパラメータ化 • ただし,物体からの距離は一定 – 2万種類のシーンをレンダリング • 各シーンについて,15の視点の画像(解像度は64×64)を獲得 • 学習時は,各ミニバッチでランダムな数の視点を使用 35
  • 37. データ集合3:Mazes • Mazes: – 7×7グリッドのランダムな迷路 • エージェントはどの連続的な位置にも行ける. • 1,2個の客室+複数の廊下. • テクスチャはランダム – 200万シーンをレンダリング • 各シーンについて,300の視点の画像(解像度は64×64)を獲得 • 学習時は,各ミニバッチでランダムな数(1~20)の視点を使用 – 別のGeneratorを学習して,迷路の上からの画像も生成する • 上からの視点は観測としては与えられない(表現ネットワークには影響しない). 37 1 2 30 4 5 6 7 8
  • 38. 実験結果 • Predicted uncertainty – Predicted information gain(information gainの期待値)を利用. 𝑃𝐼𝐺 𝑥, 𝑦 = 𝐸 𝑝 𝑥 𝑧, 𝑦 𝑝(𝑧|𝑦)[𝐼𝐺(𝑥, 𝑦)] – 視点が増えるにつれて,不確実性が下がっていることがわかる. 38 Fig. 6. Partial observability and uncertainty. (A) The agent (GQN) records several observations of a previously unencountered test maze (indicated by grey triangles). It is then B Predicted uncertaintyObservationsViewpoints 1 2 3 0 1 2 30 Predicted mapview sample1 Predicted mapview sample2 A Prediction Truth Prediction TruthObservations Observations Decreasing uncertainty Decreasing uncertainty
  • 39. データ集合4:Jaco arm • Jaco arm: – タスク:仮想環境上のアームをターゲットに近づけて留める – 本実験では,次のような流れで学習する • まずGQNによって,環境を完全に学習する. • 学習したGQNの表現を使って,A3Cで強化学習 • 実験結果 – 視点が動いても,GQNの表現を使うことで適切に学習が進む. 39 Fig. 5. GQN representation enables more robust and data-efficient control. (A) The goal is to learn to control a robotic arm to reach a randomly positioned coloured object. The controlling policy observes the scene from a fixed or moving camera (grey). We pretrain a GQN A Pretraining views B TruthPredictionObservation Policy view C GQN representation Raw pixels Oracle
  • 41. Consistent GQN • Consistent Generative Query Networks [Kumar+ 18, DeepMind] – 背景:ビデオ予測などでは,入力と出力が連続的である必要がある. – 任意の時間のフレームを生成できるモデルとしてCGQNを提案. • 過去の文脈r = 𝑓(𝑥1,…,𝑀 , 𝑣1,…,𝑀 )と任意の時間𝑣 𝑞 𝑖からフレーム𝑥 𝑞 𝑖を予測 41 • グラフィカルモデル • 変分下界(目的関数) log 𝑝 𝑥 𝑞1,…,𝑞 𝑁|𝑣 𝑞1,…,𝑞 𝑁, 𝑟 ≥ 𝔼 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 log 𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁 𝜋(𝑧|𝑟) 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 = 𝔼 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 log 𝑖=1 𝑁 𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 ||𝜋(𝑧|𝑟)]𝑥 𝑞 𝑖 𝑧 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 𝜋(𝑧|𝑟) 𝑟 𝑣 𝑞 𝑖 ※比較しやすいように,notationはGQN論文に合わせています. 𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁 = 𝑖=1 𝑁 𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖 𝑖 ∈ 1, … , 𝑁
  • 42. GQN vs. CGQN • 実験:ボックスの未知の側の数字を適切に予測できるか? – CGQNでは,各視点について一貫性のある予測ができる(T1とT2で同じ). – GQNでは,T1とT2で異なる数字が予測される -> 視点による一貫性がない 42 Figure 6: Test-set negativeELBO against number of training steps (lower isbetter). Figure 7: A cube in a room, with MNIST digits engraved on each face (test-set scene). The blue conesarewherethecontext frameswerecaptured from. Thered conesarewherethemodel isqueried. The context frames seethreesides of thecube, but themodels aretasked to sample from thefourth, unseen, side. GQN (right column) independently samples a0 and 7 for the unseen side, resulting in an inconsistent scene. CGQN samples aconsistent digit (2 or 9) for the unseen cubeface.
  • 43. GQN vs. CGQN • GQNとの違い: – 確率モデル的な違い: • 一貫性のある𝑧を獲得するために,Priorでは文脈𝑟のみから𝑧を推論 • Generationは𝑧のみから生成 – 複数系列のクエリを簡単に扱えるようになった(各系列で分布が独立になる) – アーキテクチャ的な違い: • 𝑧への推論(InferenceとPrior)にDRAWを使用 -> GQNよりもシンプルかつ一般的なモデル 43 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟) 𝑟 𝑣 𝑞 GQN 𝑥 𝑞 𝑖 𝑧 𝑞 𝑧 𝑥 𝑞1,…,𝑞 𝑁, 𝑣 𝑞1,…,𝑞 𝑁, 𝑟 𝜋(𝑧|𝑟) 𝑟 𝑣 𝑞 𝑖 𝑔 𝑥 𝑞1,…,𝑞 𝑁 𝑧, 𝑣 𝑞1,…,𝑞 𝑁 = 𝑖=1 𝑁 𝑔 𝑥 𝑞 𝑖 𝑧, 𝑣 𝑞 𝑖 𝑖 ∈ 1, … , 𝑁 CGQN
  • 44. Neural Processes • Neural Processes [Garnelo+ 18, DeepMind] – (ざっくりいうと)Gaussian ProcessのカーネルをDNNに置き換えたモデル • Globalな潜在変数を導入していることが特徴. • 詳しくはこちらのスライドを参照(DL輪読会資料): https://www.slideshare.net/DeepLearningJP2016/dlconditional-neural- processes?ref=https://deeplearning.jp/neural-processes/ – 複数の任意の点とその値(文脈)が与えられた下で,未知の点の値を予測する. • あれ,GQNっぽい 44 Neural Processes 10 100 300 784 Number of context points ContextSample1Sample2Sample3 15 30 90 1024 Number of context points ContextSample1Sample2Sample3 Figure 4. Pixel-wise regression on MNIST and CelebA The diagram on the left visualises how pixel-wise image completion can 任意の文脈を与えたときの回帰予測 (文脈が増えると分散が小さくなる) 任意の文脈を与えたときの画像生成 (文脈が増えると画像のバリエーションが小さくなる)
  • 45. Neural Process vs. CGQN • CGQNとの違い: – 確率モデル的にはCGQNと同じ – zへの推論にRNNを使わず,PriorとInferenceで同じencoderを使いまわしている(アーキテクチャ的な 違い) – 論文に描かれているグラフィカルモデル(左)とアーキテクチャ(右) • 左のグラフィカルモデルではInferenceが描かれていないので注意 45
  • 46. SLIM • Encoding Spatial Relations from Natural Language [Ramalho+ 18, DeepMind] – GQNをベースに,言語の言い換えに対して同じ画像を生成する(不変性のある表現を獲得する)モデルであ るSLIMを提案 46 Figure 2: Diagram of our model. A representation network parses multiple descriptions of ascene from different viewpoints by taking in cameracoordinates and atextual caption. Therepresentations for each viewpoint are aggregated into a scene representation vector r which is then used by a – 自然言語𝑑1,…,𝑀 と視点𝑣1,…,𝑀 で構成される文脈r = 𝑓(𝑑1,…,𝑀 , 𝑣1,…,𝑀 )が与えられたとき, 未知の視点𝑣 𝑞 から 対応する画像𝑥 𝑞 を生成するように学習 • 上の図では,𝑐が視点
  • 47. SLIMのグラフィカルモデルと変分下界 – 自然言語𝑑1,…,𝑀 と視点𝑣1,…,𝑀 で構成される文脈r = 𝑓(𝑑1,…,𝑀 , 𝑣1,…,𝑀 )が与えられたとき, 未知 の視点𝑣 𝑞 から対応する画像𝑥 𝑞 を生成するように学習 – 元論文では自然言語と画像の両方に𝑑が使われていたり,図(前ページ)と文中の説明があってなかった りして分かりづらいので,あっているか微妙 47 • グラフィカルモデル • 変分下界(目的関数) log 𝑝 𝑥 𝑞|𝑣 𝑞, 𝑟 ≥ 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞, 𝑟 𝑝(𝑧) 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 = 𝔼 𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 log 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞 , 𝑟 − 𝐾𝐿[𝑞 𝑧 𝑥 𝑞, 𝑣 𝑞 ||𝑝(𝑧)]𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟 𝑟 𝑣 𝑞 𝑝(𝑧)
  • 48. SLIM vs. GQN • GQNとの違い: – 確率モデル的な違い: • Priorが標準ガウス分布(Kingma ver.と同じ) • Inferenceにrを使っていない(クエリ情報のみ) – アーキテクチャ的な違い: • InferenceとGenerationの両方をDRAWでモデル化 • 文脈rは言語と視点のconcat(GQN等では画像と視点) 48 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 𝑔 𝑥 𝑧, 𝑣 𝑞, 𝑟 𝑟 𝑣 𝑞 GQNSLIM 𝑝(𝑧) 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞 , 𝑟𝜋(𝑧|𝑣 𝑞, 𝑟) 𝑟 𝑣 𝑞
  • 49. GQNによるカメラ位置の推定 • Learning models for visual 3D localization with implicit mapping [Rosenbaum+ 18, DeepMind] – GQNを利用して,自己位置推定のタスクを解く • Minecraftからシーンのデータを作成. – 文脈とクエリ(目標)画像から,視点(位置)を推定する • 普通のGQNと逆の設定. • 右画像の緑が予測した視点. 49 Figure 1: The Minecraft random walk dataset for localization in 3D scenes. Wegenerate random trajectories in the Minecraft environment, and collect images along the trajectory labelled by the camera pose coordinates (x,y,z yaw and pitch). Bottom: Images from random scenes. Top: The localization problem setting - for a new trajectory in a new scene, given a set of images along thetrajectory and their corresponding cameraposes (the ‘context’), predict the camerapose of an additional observed imagein thetrajectory (the‘target’, shown in green). hasseen increased usefor localization and SLAM problemsin recent years[22, 6, 13], most methods still rely on pre-specified map representations. Agentstrained with reinforcement learning havebeen demonstrated to solvenavigation tasksthat implicitly require localization and mapping [11, 3, 1, 20], suggesting that it ispossible to learn theseabilities without such pre-specification. Other methods
  • 50. Reversed-GQN • 位置推定を行うために2通りの方法を提案 – Generative:arg max 𝑣 𝑞 log 𝑝 𝑥 𝑞 |𝑣 𝑞 , 𝑟 + log 𝑝 𝑣 𝑞 |𝑟 となる𝑣 𝑞 を求める • log 𝑝 𝑥 𝑞 |𝑣 𝑞 , 𝑟 はGQN – Discriminative: log 𝑝 𝑣 𝑞|𝑥 𝑞, 𝑟 を直接モデル化(Reversed-GQN) – モデルアーキテクチャはいずれもDRAWを使用 50 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 𝑔 𝑣 𝑞 𝑧, 𝑥 𝑞 , 𝑟𝜋(𝑧|𝑥 𝑞 , 𝑟) 𝑟 𝑣 𝑞 ※元論文ではモデルの詳細が書かれていないので,違う可能性あり Reversed-GQN 𝑥 𝑞 𝑧 𝑞 𝑧 𝑥 𝑞 , 𝑣 𝑞 , 𝑟 𝑔 𝑥 𝑞 𝑧, 𝑣 𝑞 , 𝑟𝜋(𝑧|𝑣 𝑞 , 𝑟) 𝑟 𝑣 𝑞 GQN
  • 51. GQN / Reversed-GQN + Attention • より大規模な世界を学習するために,アテンション機構を導入 – 大規模な環境を学習するために利用 – DRAWのattentionとは異なるので注意 51
  • 52. 実験結果 • Generative(真ん中)とDiscriminative(下)の出力 – 文脈は20視点 – 予測した確率の高いところに,正解の位置(緑)があることが確認できる. 52 ground truth samples camera pose probability maps Figure 5: Generated samples from the generativemodel (middle), and thewhole output distribution for the discriminative model (bottom). Both were computed using the attention models, and each imageand posemap isfrom adifferent sceneconditioned on 20 context images. Thesamplescapture much of the structure of the scenes including the shape of mountains, the location of lakes, the presence of largetrees etc. (seesupplementary video for moresamples). The distribution of camera
  • 54. GQNと世界モデル • これらのGQN系論文は「世界モデル」研究の一分野と考えることができる. • 世界モデル(world model): – 外界からの刺激を元に,外界世界をシミュレートするモデル – 内部モデル(internal model)や力学モデル(dynamics model)もほぼ同じ概念 – Haらの論文タイトル[Ha+ 18]としても有名 • 説明スライド: https://www.slideshare.net/masa_s/ss-97848402 • GQN系は,視点(と画像)で条件付けた世界モデルを学習している. – 世界全体をそのままモデル化するよりも効率的 – [Ha+ 18]では,条件付せずにそのまま学習していた(なので1つの小規模なシーンしか学習できな かった) 54 刺激 世界モデル
  • 55. 世界モデル系論文を理解する上での(個人的な)ポイント • 「確率モデル」と「ネットワークアーキテクチャ」をそれぞれ理解することが 重要 – 最初に確率モデルを確認して手法の概要をつかむ – 次にネットワークアーキテクチャ(大体appendixにある)を読むと良さそう(経験上) • 今回(GQN)の場合・・・ – 確率モデルはCVAEそのもの(確率モデル的には新規性はあまりない) – 𝑧への推論にConvLSTMを利用していたり,表現ネットワークによって複数の視点の情報を組み合わ せで統合している(ネットワークアーキテクチャ的な新規性) • 実際には,これらが相互に関連している事が多いので注意が必要 – DRAWは確率モデルとアーキテクチャが一体化している. 55
  • 56. GQN系世界モデルの課題(個人的な感想) • 時系列情報の扱い – GQN系は,過去の系列情報を平均している. • 順列ではなく,組み合わせを考えることができるという利点がある(GQN系の一番の貢献かもしれない). • その一方で,時系列に含まれる情報を獲得できないという欠点もある. – 空間だけでなく時間を含めて世界を学習するためには,時系列情報をどのように扱うかを考える必 要がある. • 世界を学習しきれない場合の対応 – 現実には,世界を学習し切ることは不可能(我々人間も世界のすべてを知っているわけではない) – 現実世界で適用するためには,世界モデルを学習しきれない中でどのように行動するかを考えるこ とが必要 • 好奇心の導入など • どのように効率的に世界を学習するかを考えることも重要 56
  • 58. まとめ • 今回話したこと – 深層生成モデル(VAE〜CVAE)の基礎 – GQN論文の説明 – GQNの関連研究と世界モデルとの関連 • 感想 – 「何を条件付けるか」という戦い – 世界モデル系はどんどんアーキテクチャが込み入ってきているので(TD-VAEとか), どこが重要なのかをしっかり確認する必要がある. 58