SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Convolutional Conditional Neural Processes と
Neural Processes Family の紹介
Makoto Kawano(@mkt_kwn), Matsuo Lab.
書誌情報&謝辞
著者情報:
Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima,
Yann Dubois, Richard E. Turner
University of Cambridge, Invenia Labs, Microsoft Research
ICLR2020(8, 8, 6)
選定理由:
とりあえず強い
とにかく強い
ただただ強い
謝辞
本論文の理解及び発表資料作成するにあたって,貴重な時間を割いて議論していた
だいた理研 AIP の熊谷亘氏と松井孝太氏に感謝いたします.
1/49
補足
今回の論文 ConvCNP を発表するにあたって,Neural Process から説明しますが,よ
り詳細を知りたい方は,過去の資料を参照していただけると幸いです
(リンク埋め込み済,クリックしてもらえれば)
Conditional Neural Processes
Attentive Neural Processes
NP Family の実装について
2/49
研究概要
様々なドメインに対し,Neural Process は利用されている
時系列データや空間データ,欠損した画像データなど
Translation equivariance(平行移動等価性) の考慮が理想
データが時空間方向に平行移動した場合,予測も同様の平行移動をする
帰納的バイアスとして NP のモデル仮説に組み込まれるべき
現状,データセットからこの性質を学習させており,汎化の面で非効率的
サンプリング及びパラメータ数の面でもよくない
3/49
研究概要
Translation equivariance を組み込むには畳み込み構造が一番良い
CNN は,MLP に translation equivariance を追加
CNN のように NP に畳み込み構造は素直には入れられない
(i) CNN への入力データは “格子状” である必要あり
(ii) NP は部分的に観測された集合に対し演算可能だが,CNN は一般には無理
(iii) 入力の平行移動に関する等価性が自然ではない有限次元ベクトル空間へ
集合を埋め込む
関数表現を含むように集合における学習理論を拡張することで,
translation equivariance を NP が考慮できるようになり解決する
4/49
アウトライン
1. Neural Process Family
1.1 Neural Process
1.2 (Conditional) Neural Processes
1.3 Attentive Neural Processes
(AttnNPs)
1.4 Functional Neural Process
2. Convolutional Deep Sets
2.1 Permutation Invariant
2.2 Translation Equivalence
2.3 Representaions of Translation
Equivariant Functions on Sets
3. Convolutional Conditional Neural
Processes
3.1 φ の形式について
3.2 off-the-grid 時
3.3 on-the-grid 時
4. 実験
4.1 Synthetic 1D データセット
4.2 PLAsTiCC データセット
4.3 Predator-Prey モデル:SIM2REAL
4.4 2D 画像補完
5/49
Notation
入力空間:X = Rd
出力空間:Y ⊆ Rd (Y はコンパクト)
扱いやすくするため,スカラー出力 Y ⊆ R とする
M 個の入出力ペアの集合族 (系):ZM = (X × Y)M
高々 M ペアの集合族 (系):Z≤M = M
m=1 ZM
有限個ペアの集合族 (系):Z = ∞
m=1 ZM
後述の Z における permutation invariant を考えるため,
Z の元 Z は集合かデータセットとして言及
[n] = {1, . . . , n}
n までの自然数
7/49
Neural Process
Neural process
Context 集合 Z = {xm, ym}M
m=1 が観測されたとき,
入力 x における出力 y の条件付き確率 p(y|x, Z, θ) をパラメータ θ でモデル化
GP のように不確実性を扱うことができるような深層生成モデル
NP の利用可能先:
メタ学習
• テスト時に新しいコンテクスト集合から予測を生成することが可能
マルチタスク学習及び転移学習
• データセット間の情報を自然な形で共有することが可能
8/49
(Conditional) Neural Processes [Garnelo et al., 2018a][Garnelo et al., 2018b]
CNPs では,条件付き分布 p(y|x, Z) = p(y|Φ(x, Z), θ) を予測するモデル
Φ:エンコーダ E : Z → Re と ρ: Re → Cb(X, Y) の合成 ρ ◦ E で構成
E(Z) ∈ Re は,集合 Z のベクトル表現
Cb(X, Y) は,X → Y である一様ノルムをもつ連続な有界関数空間
Neural Process の場合:
E(Z) を再パラメータ化して
潜在変数 h を利用
q(h|E(Z)) をモデル化
目的関数:
CNPs:尤度最大化
NPs:尤度最大化+ KL 項 9/49
(Conditional) Neural Processes の課題
GP のように予測における不確実性を捉えることができる
NP Multihead ANP Oracle GP
一方で課題がいくつか残っている:
観測点における under-fitting ⇔ 予測点における over-confidence
非滑らかさ
深層学習ならではの理論的保証がないなど
10/49
Attentive Neural Processes (AttnNPs) [Kim et al., 2019]
Attention 機構を Neural Process に持たせる
観測点と予測点の関係性 (類似性) を考慮してないからダメ
ガウス過程では,ガウスカーネルによってこの帰納的バイアスを取り入れている
Attention を使うことで解決
11/49
Functional Neural Process [Louizos et al., 2019]
大域的な潜在変数ではなく,局所的な潜在変数同士の関係性をグラフで表現
入力点の潜在変数同士を積で表現: pθ(U|X) = i∈B pθ(ui|xi)
潜在変数同士の関係性をグラフで構築
inducing pointsR(赤領域) における DAG
R から M = DxR(点線) への二部グラフ
pθ (yB, ZB|R, G, A) dZB を求める
12/49
Neural Process のまとめ
観測点が与えられたときの条件付き分布を予測する深層生成モデル
ガウス過程のように予測の不確実性を捉えることができる
転移学習やメタ学習などにも応用可能
一部の意思決定関係の応用タスクでは GP より性能上 [Galashov et al., 2019]
一方で,未解決部分は多い
観測点において under-fitting が起きてしまう
滑らかさがない
観測点数 n → ∞ のときの一致性などが保証されていない
なんらかの形で Neural process に帰納的バイアスを持たせることが大事
13/49
Permutation Invariant (置換不変)
予測したいのは,複数の観測点集合が表現している関数
E:データ点ではなく集合を入力として受け付ける関数
集合の元には順序はなく,観測点の順番に対し,不変であるべき
性質 1:Sn-invariant と S-invariant [Zaheer et al., 2017]
Sn を n ∈ N である n 個の順列集合とする.Zn の関数 Φ は,
Φ(Zn) = Φ(πZn) for all π ∈ Sn and Zn ∈ Zn,
であるとき,Sn-invariant と呼ぶ.ただし,Zn への π 適用は,
πZn = ((xπ(1), yπ(1)), . . . , (xπ(n), yπ(n))) と定義される.
また,制約 Φ|Zn が全ての n で Sn-invariant であるとき,Z における関数 Φ は,
S-invariant という.
15/49
Permutation Invariant を持つ関数 Deep Sets
DeepSets [Zaheer et al., 2017]
任意の S-invariant な連続関数 f : Zn → R は,和分解可能
i.e. 適当な ρ と φ があるとき,f(Z) = ρ z∈Z φ(z) と表現できる
(観測されたデータ点) 集合を潜在表現に埋め込む encoder として多くの NPs で採用
GQN では,和を使っている
GQN は,NP の特殊なケースと見なすことが可能
Neural process では,和ではなく平均を使っている
16/49
Translation Equivalence (平行移動等価性)
もしデータの入力位置が τ だけ平行移動したら,出力も同様に平行移動してほしい
CNN の性能が良いのは,この性質を持つため
[Kondor and Trivedi, 2018, Cohen and Welling, 2016]
性質 2:集合における平行移動に対し等価な写像
H を X 上の関数空間とし,T と T を次のように定義する:
T : X × Z → Z, Tτ Z = ((x1 + τ, y1), . . . , (xm + τ, ym)),
T : X × H → H, Tτ h(x) = h(x − τ).
写像 Φ: Z → H が,
Φ(Tτ Z) = Tτ Φ(Z) for all τ ∈ X and Z ∈ Z.
であるとき,translation equivariance を持つ. 17/49
Neural Process のエンコーダにおける Translation Equivariance
既存 NP による集合 Z のベクトル空間 Rd への写像では,X の入力平行移動に関する
等価性は well-defined ではない
X 上の関数 f は τ ∈ X : f(· − τ) で平行移動可能
一方,ベクトル x ∈ Rd を関数 [d] → R,x(i) = xi とみなすと,平行移動
x(· − τ) は well-defined ではない
エンコーダ E : Z → H を X 上の関数を含む (関数) 空間 H に写像するように拡張
H 上の関数は X から写像されるため,E(Z) における translation equivariance
を定義可能
18/49
Multiplicity (重複度)
定義 2:Multiplicity
系 Z ⊆ Z について,各集合 Z ∈ Z に含まれる各 x が高々 K 回出現するとき:
mult Z := sup { sup { | { i ∈ [m] : xi = ˆx } | : ˆx = x1, . . . , xm
number of times every x occurs
} : (xi, yi)m
i=1 ∈ Z }
= K
Z は multiplicityK を持つという.ただし,[m] = { 1, . . . , m }
例えば:時系列や画像などの実世界データ
一ヶ所の入力位置につき,一つの (多次元である) 観測であることが多い
= multiplicity 1 に一致 (ほとんど 1 であることが多い)
19/49
主定理:ConvDeepSet
定理 1:連続かつ translation equivariant な関数 ConvDeepSet
重複度が K である適切な集合系 (族)Z≤M ⊆ Z≤M を考える.H を E の像を含む関
数空間とし,連続で translation equivariant な関数 ρ: H → Cb(X, Y) と,連続であ
る φ: Y → RK+1,ψ: X → R が
Φ(Z) = ρ (E(Z)) , E((x1, y1), . . . , (xm, ym)) =
m
i=1
φ(yi)ψ(· − xi)
という形を持つとき (①),関数 Φ: Z≤M → Cb(X, Y) が,連続かつ permutation
invariant/translation equivariant であること (②) と同値である.
この関数 Φ を ConvDeepSet と呼ぶ.
20/49
定理 1 証明のための補題
1. 商位相空間 An/Sn を定義
x を並び替えた y の関係を x ∼ y とし,∼ の同値類の集合系 (族) を An
/Sn とする
2. この位相空間で,E : [ZM ] → HM が同相写像である (補題 1 と補題 2)
集合系の要素数は M に固定
3. 元の数が ≤ M な集合でも E : [Z≤M ] → H≤M が同相写像である (補題 3)
E は全単射であり,逆写像 E−1
が存在
4. Φ: [Z≤M → Cb(X, Y)] を連続な関数だとすると,
Φ ◦ E−1
: H≤M → Cb(X, Y)
は連続となる (補題 4)
21/49
定理 1 の証明
① ⇒ ② (十分条件)
まず が可換則と結合則をもつため,Φ は permutation invariant である.次に,
Φ 及び ρ が translation equivariant であることは,直接確認できる:
Φ(Tτ Z) = ρ
M
i=1
φ(yi)ψ(· − (xi + τ))
= ρ
M
i=1
φ(yi)ψ((· − τ) − xi)
= ρ
M
i=1
φ(yi)ψ(· − xi) (· − τ)
= Φ(Z)(· − τ)
= Tτ Φ(Z). 22/49
定理 1 の証明
② ⇒ ① (必要条件)
Φ は permutation invariant であることを用いて,(制限 Φ|[Zm] は連続であるもとで)
Φ:
M
m=1
[Zm] → Cb(X, Y), Φ(Z) = Φ([Z])
を定義する.補題 3 により,E は逆写像を持つことから,[Z] = E−1(E([Z])) であ
る.ゆえに,
Φ(Z) = Φ([Z]) = Φ(E−1
(E([Z]))) = (Φ ◦ E−1
)
M
i=1
φ(yi)ψ(· − xi)
である.
23/49
定理 1 の証明
② ⇒ ① (必要条件) の続き
ρ = Φ ◦ E−1 を用いて ρ: H≤M → Cb(XY) と定義すると,補題 4 により,ρ は連続
である.
次に,ψ が不変カーネル1であることから,E−1 は translation equivariant である.
また,仮定より Φ が translation equivariant である.
よって,これらで構成された ρ も translation equivariant となる.
1
k(x − y) = ψ(x − y) の形を持つカーネルのこと 24/49
定理 1 の証明における重要な事項
1. ψ:RKHS に関係した正定値カーネルに設定
E に必要とする性質を持たせるために必要
(i)ψ(x, x ) ≥ 0,(ii)ψ(x, x) = σ2
> 0,(iii) x → ∞ のとき ψ(x, x ) → 0
2. φ:K 次元までの y の冪乗 (i.e. φ(y) = (y0, y1, · · · , yK)) [Zaheer et al., 2017]
集合系 (族)Zm ⊆ Zm は multiplicity K
E:カーネル ψ の RKHSH と内積 f, g HK+1 = K+1
i=1 fi, gi H で構成された
(K + 1) 次元ベクトルのヒルベルト空間 HK+1 = H × . . . × H に写像する:
Hm =
m
i=1
φ(yi)ψ(·, xi) : (xi, yi)m
i=1 ⊆ Zm ⊆ HK+1
3. ρ:連続かつ関数間で translation equivariant な写像が可能な関数近似器
25/49
Convolutional Conditional Neural Processes
ConvCNP
ConvCNP は,観測データ Z と ConvDeepSetΦ があるとき,
次の条件付き分布をモデル化する:
p(Y |X, Z) =
N
n=1
p (yn|Φθ(Z) (xn)) =
N
n=1
N (yn; µn, Σn)
with (µn, Σn) = Φθ(Z)(xn) = ρ(
m
i=1
φ(yi)ψ(· − xi))(xn)
Φ の要素である ρ,φ,ψ の設計が重要
ρ と ψ は,データが格子状にあるかないかで異なる
27/49
φ の形式について
この論文内で取り組むタスク:Z の multiplicity は 1 (i.e. K = 1)
一つの入力位置につき,一つの出力
φ はオーダーが 1 の指数系列:φ(y) = [1 y]
hi ←
N
n=1
1
yn
ψ(ti − xn)
1 次元目:データが観測されていることを示す情報
• y = 0 となるようなデータ点 x と区別をするため
• 観測点の “密度” を表現している
2 次元目以降:周辺の観測点の値をカーネルによる加重平均
獲得された関数表現 h のうち,h(0)
で h(1:)
を割る
入力位置が多様に富んでいるときに有効
28/49
off-the-grid 時の CONVCNPs
Theorem 1 の証明から残りの関数 φ と ρ は決まる:
ψ:定常性/非負/正定値を持つカーネル
指数二次 (exponentiated-quadratic; EQ) カーネルの選択が自然
φ との積で関数表現 E(Z) になる
ρ:連続/関数空間同士の写像が translation equivalent を持つ
CNN により translation equivalent は保持される
ρ の入力を離散化,CNN 適用,CNN の出力を連続関数に戻す
29/49
off-the-grid 時の順伝搬
require: ρ = (CNN, ψρ), ψ, density γ
require: context (xn, yn)N
n=1, target (x∗
m)M
m=1
1 begin
2 lower, upper ← range (xn)N
n=1 ∪ (x∗
m)M
m=1
3 (ti)T
i=1 ← uniform_grid(lower, upper; γ)
4 hi ← N
n=1
1
yn
ψ(ti − xn)
5 h
(1)
i ← h
(1)
i /h
(0)
i
6 (fµ(ti), fσ(ti))T
i=1 ← CNN((ti, hi)T
i=1)
7 µm ← T
i=1 fµ(ti)ψρ(x∗
m − ti)
8 σm ← T
i=1 exp(fσ(ti))ψρ(x∗
m − ti)
9 return (µm, σm)M
m=1
10 end 30/49
off-the-grid 時の順伝搬のイメージ
1. 観測点が与えられたときに,観測点の密度と値を使って関数表現を獲得
2. 格子状のデータ点を用意し,各点での平均と分散を畳み込んで計算
3. 格子点間の点における平均と分散をカーネルで戻して出力させる
31/49
on-the-grid 時の ConvCNPs
主に画像を入力にするときの場合を考える:ベンチマークでは画像補完タスク
off-the-grid の時に比べて実装は簡単 ピクセルの位置を利用
画像 I ∈ RH×W×C に対し,context マスク Mc を設定する
ピクセル位置 (i, j) が context に含まれている場合は 1,含まれなければ 0
φ の実装:Zc := Mc I,φ = [Mc, Zc]
あとは何回か CNN を通し,出力を 2C で出力する:平均と標準偏差
(µ, log(σ)) = Mt CNN(
E(context set)
[ conv(Mc)
density channel
; conv(Mc I)/conv(Mc)] )
32/49
on-the-grid 時の順伝搬
require: ρ = CNN, E = CONVθ
require: image I, context Mc, target mask Mt
1 begin
2 // We discretize at the pixel locations.
3 Zc ← Mc I // Extract Context set.
4 h ← CONVθ([Mc, Zc] )
5 h(1:C) ← h(1:C)/h(0)
6 ft ← Mt CNN(h)
7 µ ← f
(1:C)
t
8 σ ← pos(f
(C+1:2C)
t )
9 return (µ, σ)
10 end
33/49
ConvCNPs の学習
データセット D = {Zn}N
n=1 ⊆ Z とパラメータ θ が与えられたとき,
Zn を context set(Zn,c) と target set(Zn,t) に分割し,尤度最大化を行う:
θ∗
= arg max
θ∈Θ
N
n=1 (x,y)∈Zn,t
log p (y|Φθ(Zn,c)(x))
学習アルゴリズムとして確率的勾配降下法を適用
34/49
実験
on-the-grid 時と off-the-grid 時の両方で ConvCNPs の性能を評価
1. Translation equivariance は,性能改善に役立っているのか?
2. Translation equivariance は,ConvCNPs を訓練時と異なるデータに対して汎化
するのか?
複数の off-the-grid のデータセットでの実験:
不規則にサンプリングされた時系列 (X = R) データを利用
ガウス過程 [Williams and Rasmussen, 2006] と AttnCNP[Kim et al., 2019](潜在
パス抜き) と比較
複数の on-the-grid のデータセットでの実験:
画像データセット (X = R2)
36/49
2 種類の CNN アーキテクチャ
1D 回帰実験で使うモデル:
入力カーネル ψ と出力層 φp
学習可能な length scale パラメータありの EQ カーネル
ネットワークの大きさで 2 種類提案
ConvCNP:4 層の畳み込み,カーネルサイズ 5, [16, 32, 16, 2] チャンネル
• パラメータ数 5506 だと思うんだけど,論文では 6537
ConvCNPXL:UNet の構造から発想
• 12 層+skip coneection (最初の 6 層でチャンネル倍,終わり 6 層でチャンネル半分)
37/49
Synthetic 1D データセット
4 種類のカーネルを使ったガウス過程からサンプリングされたデータセットで回帰
EQ カーネル
Matern-5
2 カーネル
weakly-periodic カーネル
sawtooth 過程
Model Params EQ Weak Periodic Matern Sawtooth
CNP 66818 0.88 ± 3e-3 -1.10 ± 2e-3 -0.78 ± 1e-3 -0.16 ± 1e-5
AttnCNP 149250 2.58 ± 4e-3 -1.10 ± 2e-3 -0.42 ± 2e-3 0.33 ± 2e-3
ConvCNP 6537 2.06 ± 5e-3 -1.14 ± 2e-3 0.37 ± 4e-3 2.21 ± 4e-3
ConvCNPXL 50617 2.93 ± 4e-3 -0.41 ± 2e-3 0.50 ± 4e-3 2.66 ± 1e-3
AttnCNPConvCNP
38/49
PLAsTiCC データセット
大型シノプティック・サーベイ望遠鏡によって,現実的な観測条件下で観測された過
渡現象のシミュレーションデータ (Kaggle ページ)
6 種類の天文フィルタによる光子束を計測した 3,500,734 個の “光の曲線” データ
6 次元の時系列データ
比較対象:
優勝モデル:光の曲線をモデリングした GP
multi-input-multi-output の CONVCNP
Model Log-likelihood MSE
Kaggle GP [Boone, 2019] -0.335 ± 0.09 0.037 ± 4e-3
ConvCP (ours) 1.31 ± 0.30 0.040 ± 5e-3
39/49
Predator-Prey モデル:SIM2REAL
シミュレーションデータで学習して,実データでテスト
捕食–被食関係による個体数の変動を表現したロトカ・ヴォルテラの方程式を
利用して,シミュレーション
ロトカ・ヴォルテラ過程 [Papamakarios and Murray, 2016] のパラメータ推定に利用
Hudson’s Bay lynx-hare データセット (実データ) を条件づけて一部を補完
AttnNP ではできなかった
シミュレーションデータが可変長で translation equivariance が必要だから?
40/49
2D 画像補完
ピクセル座標 x∗
i の強度 y∗
i (RGB:∈ R3,グレースケール:∈ R) を予測
4 種類のよくあるベンチマークデータセットで実験
MNIST,SVHN,32 × 32,64 × 64 の CelebA
いずれも一つの物体が中央に位置 1 しているため,translation equivariance が
性能悪化させているかもしれない
複数の物体が非中央に位置している画像でもテスト
zero-shot MNIST(ZSMM)
訓練時は 1 枚辺り一個の数字,テスト時は 1 枚あたり 2 つの数字
Model Params MNIST SVHN CelebA32 CelebA64 ZSMM
AttnCNP 410k 1.08 ±0.04 3.94 ±0.02 3.18 ±0.02 -0.83 ±0.08
ConvCNP 181k 1.19 ±0.01 3.89 ±0.01 3.19 ±0.02 3.64 ±0.01 1.21 ±0.00
ConvCNPXL 408k 1.26 ±0.01 3.97 ±0.03 3.35 ±0.02 3.70 ±0.01 0.30 ±0.75
41/49
2D 画像補完の結果
ZSMM の補完における対数尤度ヒストグラムと異なる percentiles における補完結果
ConvCNP は,out-of-distribution であっても,うまく出来ている
AttnCNP:訓練データに偏り,中央に “平均” 的な数字を予測
42/49
その他の画像補完結果
CelebA や MNIST で学習させた ConvCNP を転移させる
Figure 3: 95%欠損したオスカー写真 43/49
まとめ
Neural process Family と ConvCNP について発表
Translation equivalence という帰納的バイアスを追加
Convolutional Deep Sets に関する定理を示す
畳み込みをうまくモデルに組み込む
様々な回帰タスクの実験で既存の AttentionCNP を上回る
1D 回帰及び 2D 回帰 (画像補完タスク)
感想
カーネルをうまく使ってあげることで,DNN だけでは難しいところをカバーし
ているのはうまい
きちんと証明しているのは強い (8p に及んでる)(つらい)
44/49
References i
[Boone, 2019] Boone, K. (2019).
Avocado: Photometric classification of astronomical transients with gaussian process
augmentation.
arXiv preprint arXiv:1907.04690.
[Cohen and Welling, 2016] Cohen, T. and Welling, M. (2016).
Group equivariant convolutional networks.
In Balcan, M. F. and Weinberger, K. Q., editors, Proceedings of The 33rd International Conference
on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages
2990–2999, New York, New York, USA. PMLR.
45/49
References ii
[Galashov et al., 2019] Galashov, A., Schwarz, J., Kim, H., Garnelo, M., Saxton, D., Kohli, P., Eslami, S.,
and Teh, Y. W. (2019).
Meta-learning surrogate models for sequential decision making.
arXiv preprint arXiv:1903.11907.
[Garnelo et al., 2018a] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan,
M., Teh, Y. W., Rezende, D., and Eslami, S. M. A. (2018a).
Conditional neural processes.
In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine
Learning, volume 80 of Proceedings of Machine Learning Research, pages 1704–1713,
Stockholmsmässan, Stockholm Sweden. PMLR.
46/49
References iii
[Garnelo et al., 2018b] Garnelo, M., Schwarz, J., Rosenbaum, D., Viola, F., Rezende, D. J., Eslami, S., and
Teh, Y. W. (2018b).
Neural processes.
arXiv preprint arXiv:1807.01622.
[Kim et al., 2019] Kim, H., Mnih, A., Schwarz, J., Garnelo, M., Eslami, A., Rosenbaum, D., Vinyals, O., and
Teh, Y. W. (2019).
Attentive neural processes.
In International Conference on Learning Representations.
47/49
References iv
[Kondor and Trivedi, 2018] Kondor, R. and Trivedi, S. (2018).
On the generalization of equivariance and convolution in neural networks to the action of
compact groups.
In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine
Learning, volume 80 of Proceedings of Machine Learning Research, pages 2747–2755,
Stockholmsmässan, Stockholm Sweden. PMLR.
[Louizos et al., 2019] Louizos, C., Shi, X., Schutte, K., and Welling, M. (2019).
The functional neural process.
arXiv preprint arXiv:1906.08324.
[Papamakarios and Murray, 2016] Papamakarios, G. and Murray, I. (2016).
Fast -free inference of simulation models with bayesian conditional density estimation.
In Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I., and Garnett, R., editors, Advances in Neural
Information Processing Systems 29, pages 1028–1036.
48/49
References v
[Williams and Rasmussen, 2006] Williams, C. K. and Rasmussen, C. E. (2006).
Gaussian processes for machine learning, volume 2.
MIT press Cambridge, MA.
[Zaheer et al., 2017] Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and
Smola, A. J. (2017).
Deep sets.
In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R.,
editors, Advances in Neural Information Processing Systems 30, pages 3391–3401.
49/49

Contenu connexe

Tendances

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会]Conditional Neural Processes
[DL輪読会]Conditional Neural Processes[DL輪読会]Conditional Neural Processes
[DL輪読会]Conditional Neural ProcessesDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processesDeep Learning JP
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験myxymyxomatosis
 

Tendances (20)

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]Conditional Neural Processes
[DL輪読会]Conditional Neural Processes[DL輪読会]Conditional Neural Processes
[DL輪読会]Conditional Neural Processes
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 

Similaire à [DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
ネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザインネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザインhayashiresearchlab
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
経験過程
経験過程経験過程
経験過程hoxo_m
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistryshima o
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”Kota Matsui
 
Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Wataru Kishimoto
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門Tatsuki SHIMIZU
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)Akira Asano
 
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)Akira Asano
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisTatsuki SHIMIZU
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Yuya Takashina
 
Hayashi tutorial ne2017
Hayashi tutorial ne2017Hayashi tutorial ne2017
Hayashi tutorial ne2017yukisachi
 

Similaire à [DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介 (20)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
ネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザインネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザイン
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
経験過程
経験過程経験過程
経験過程
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistry
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
 
Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
 
Draftall
DraftallDraftall
Draftall
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
 
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)
2015年度春学期 画像情報処理 第4回 離散フーリエ変換 (2015. 4.30)
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
Hayashi tutorial ne2017
Hayashi tutorial ne2017Hayashi tutorial ne2017
Hayashi tutorial ne2017
 
0621
06210621
0621
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Convolutional Conditional Neural Processes と Neural Processes Family の紹介 Makoto Kawano(@mkt_kwn), Matsuo Lab.
  • 2. 書誌情報&謝辞 著者情報: Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima, Yann Dubois, Richard E. Turner University of Cambridge, Invenia Labs, Microsoft Research ICLR2020(8, 8, 6) 選定理由: とりあえず強い とにかく強い ただただ強い 謝辞 本論文の理解及び発表資料作成するにあたって,貴重な時間を割いて議論していた だいた理研 AIP の熊谷亘氏と松井孝太氏に感謝いたします. 1/49
  • 3. 補足 今回の論文 ConvCNP を発表するにあたって,Neural Process から説明しますが,よ り詳細を知りたい方は,過去の資料を参照していただけると幸いです (リンク埋め込み済,クリックしてもらえれば) Conditional Neural Processes Attentive Neural Processes NP Family の実装について 2/49
  • 4. 研究概要 様々なドメインに対し,Neural Process は利用されている 時系列データや空間データ,欠損した画像データなど Translation equivariance(平行移動等価性) の考慮が理想 データが時空間方向に平行移動した場合,予測も同様の平行移動をする 帰納的バイアスとして NP のモデル仮説に組み込まれるべき 現状,データセットからこの性質を学習させており,汎化の面で非効率的 サンプリング及びパラメータ数の面でもよくない 3/49
  • 5. 研究概要 Translation equivariance を組み込むには畳み込み構造が一番良い CNN は,MLP に translation equivariance を追加 CNN のように NP に畳み込み構造は素直には入れられない (i) CNN への入力データは “格子状” である必要あり (ii) NP は部分的に観測された集合に対し演算可能だが,CNN は一般には無理 (iii) 入力の平行移動に関する等価性が自然ではない有限次元ベクトル空間へ 集合を埋め込む 関数表現を含むように集合における学習理論を拡張することで, translation equivariance を NP が考慮できるようになり解決する 4/49
  • 6. アウトライン 1. Neural Process Family 1.1 Neural Process 1.2 (Conditional) Neural Processes 1.3 Attentive Neural Processes (AttnNPs) 1.4 Functional Neural Process 2. Convolutional Deep Sets 2.1 Permutation Invariant 2.2 Translation Equivalence 2.3 Representaions of Translation Equivariant Functions on Sets 3. Convolutional Conditional Neural Processes 3.1 φ の形式について 3.2 off-the-grid 時 3.3 on-the-grid 時 4. 実験 4.1 Synthetic 1D データセット 4.2 PLAsTiCC データセット 4.3 Predator-Prey モデル:SIM2REAL 4.4 2D 画像補完 5/49
  • 7. Notation 入力空間:X = Rd 出力空間:Y ⊆ Rd (Y はコンパクト) 扱いやすくするため,スカラー出力 Y ⊆ R とする M 個の入出力ペアの集合族 (系):ZM = (X × Y)M 高々 M ペアの集合族 (系):Z≤M = M m=1 ZM 有限個ペアの集合族 (系):Z = ∞ m=1 ZM 後述の Z における permutation invariant を考えるため, Z の元 Z は集合かデータセットとして言及 [n] = {1, . . . , n} n までの自然数 7/49
  • 8. Neural Process Neural process Context 集合 Z = {xm, ym}M m=1 が観測されたとき, 入力 x における出力 y の条件付き確率 p(y|x, Z, θ) をパラメータ θ でモデル化 GP のように不確実性を扱うことができるような深層生成モデル NP の利用可能先: メタ学習 • テスト時に新しいコンテクスト集合から予測を生成することが可能 マルチタスク学習及び転移学習 • データセット間の情報を自然な形で共有することが可能 8/49
  • 9. (Conditional) Neural Processes [Garnelo et al., 2018a][Garnelo et al., 2018b] CNPs では,条件付き分布 p(y|x, Z) = p(y|Φ(x, Z), θ) を予測するモデル Φ:エンコーダ E : Z → Re と ρ: Re → Cb(X, Y) の合成 ρ ◦ E で構成 E(Z) ∈ Re は,集合 Z のベクトル表現 Cb(X, Y) は,X → Y である一様ノルムをもつ連続な有界関数空間 Neural Process の場合: E(Z) を再パラメータ化して 潜在変数 h を利用 q(h|E(Z)) をモデル化 目的関数: CNPs:尤度最大化 NPs:尤度最大化+ KL 項 9/49
  • 10. (Conditional) Neural Processes の課題 GP のように予測における不確実性を捉えることができる NP Multihead ANP Oracle GP 一方で課題がいくつか残っている: 観測点における under-fitting ⇔ 予測点における over-confidence 非滑らかさ 深層学習ならではの理論的保証がないなど 10/49
  • 11. Attentive Neural Processes (AttnNPs) [Kim et al., 2019] Attention 機構を Neural Process に持たせる 観測点と予測点の関係性 (類似性) を考慮してないからダメ ガウス過程では,ガウスカーネルによってこの帰納的バイアスを取り入れている Attention を使うことで解決 11/49
  • 12. Functional Neural Process [Louizos et al., 2019] 大域的な潜在変数ではなく,局所的な潜在変数同士の関係性をグラフで表現 入力点の潜在変数同士を積で表現: pθ(U|X) = i∈B pθ(ui|xi) 潜在変数同士の関係性をグラフで構築 inducing pointsR(赤領域) における DAG R から M = DxR(点線) への二部グラフ pθ (yB, ZB|R, G, A) dZB を求める 12/49
  • 13. Neural Process のまとめ 観測点が与えられたときの条件付き分布を予測する深層生成モデル ガウス過程のように予測の不確実性を捉えることができる 転移学習やメタ学習などにも応用可能 一部の意思決定関係の応用タスクでは GP より性能上 [Galashov et al., 2019] 一方で,未解決部分は多い 観測点において under-fitting が起きてしまう 滑らかさがない 観測点数 n → ∞ のときの一致性などが保証されていない なんらかの形で Neural process に帰納的バイアスを持たせることが大事 13/49
  • 14. Permutation Invariant (置換不変) 予測したいのは,複数の観測点集合が表現している関数 E:データ点ではなく集合を入力として受け付ける関数 集合の元には順序はなく,観測点の順番に対し,不変であるべき 性質 1:Sn-invariant と S-invariant [Zaheer et al., 2017] Sn を n ∈ N である n 個の順列集合とする.Zn の関数 Φ は, Φ(Zn) = Φ(πZn) for all π ∈ Sn and Zn ∈ Zn, であるとき,Sn-invariant と呼ぶ.ただし,Zn への π 適用は, πZn = ((xπ(1), yπ(1)), . . . , (xπ(n), yπ(n))) と定義される. また,制約 Φ|Zn が全ての n で Sn-invariant であるとき,Z における関数 Φ は, S-invariant という. 15/49
  • 15. Permutation Invariant を持つ関数 Deep Sets DeepSets [Zaheer et al., 2017] 任意の S-invariant な連続関数 f : Zn → R は,和分解可能 i.e. 適当な ρ と φ があるとき,f(Z) = ρ z∈Z φ(z) と表現できる (観測されたデータ点) 集合を潜在表現に埋め込む encoder として多くの NPs で採用 GQN では,和を使っている GQN は,NP の特殊なケースと見なすことが可能 Neural process では,和ではなく平均を使っている 16/49
  • 16. Translation Equivalence (平行移動等価性) もしデータの入力位置が τ だけ平行移動したら,出力も同様に平行移動してほしい CNN の性能が良いのは,この性質を持つため [Kondor and Trivedi, 2018, Cohen and Welling, 2016] 性質 2:集合における平行移動に対し等価な写像 H を X 上の関数空間とし,T と T を次のように定義する: T : X × Z → Z, Tτ Z = ((x1 + τ, y1), . . . , (xm + τ, ym)), T : X × H → H, Tτ h(x) = h(x − τ). 写像 Φ: Z → H が, Φ(Tτ Z) = Tτ Φ(Z) for all τ ∈ X and Z ∈ Z. であるとき,translation equivariance を持つ. 17/49
  • 17. Neural Process のエンコーダにおける Translation Equivariance 既存 NP による集合 Z のベクトル空間 Rd への写像では,X の入力平行移動に関する 等価性は well-defined ではない X 上の関数 f は τ ∈ X : f(· − τ) で平行移動可能 一方,ベクトル x ∈ Rd を関数 [d] → R,x(i) = xi とみなすと,平行移動 x(· − τ) は well-defined ではない エンコーダ E : Z → H を X 上の関数を含む (関数) 空間 H に写像するように拡張 H 上の関数は X から写像されるため,E(Z) における translation equivariance を定義可能 18/49
  • 18. Multiplicity (重複度) 定義 2:Multiplicity 系 Z ⊆ Z について,各集合 Z ∈ Z に含まれる各 x が高々 K 回出現するとき: mult Z := sup { sup { | { i ∈ [m] : xi = ˆx } | : ˆx = x1, . . . , xm number of times every x occurs } : (xi, yi)m i=1 ∈ Z } = K Z は multiplicityK を持つという.ただし,[m] = { 1, . . . , m } 例えば:時系列や画像などの実世界データ 一ヶ所の入力位置につき,一つの (多次元である) 観測であることが多い = multiplicity 1 に一致 (ほとんど 1 であることが多い) 19/49
  • 19. 主定理:ConvDeepSet 定理 1:連続かつ translation equivariant な関数 ConvDeepSet 重複度が K である適切な集合系 (族)Z≤M ⊆ Z≤M を考える.H を E の像を含む関 数空間とし,連続で translation equivariant な関数 ρ: H → Cb(X, Y) と,連続であ る φ: Y → RK+1,ψ: X → R が Φ(Z) = ρ (E(Z)) , E((x1, y1), . . . , (xm, ym)) = m i=1 φ(yi)ψ(· − xi) という形を持つとき (①),関数 Φ: Z≤M → Cb(X, Y) が,連続かつ permutation invariant/translation equivariant であること (②) と同値である. この関数 Φ を ConvDeepSet と呼ぶ. 20/49
  • 20. 定理 1 証明のための補題 1. 商位相空間 An/Sn を定義 x を並び替えた y の関係を x ∼ y とし,∼ の同値類の集合系 (族) を An /Sn とする 2. この位相空間で,E : [ZM ] → HM が同相写像である (補題 1 と補題 2) 集合系の要素数は M に固定 3. 元の数が ≤ M な集合でも E : [Z≤M ] → H≤M が同相写像である (補題 3) E は全単射であり,逆写像 E−1 が存在 4. Φ: [Z≤M → Cb(X, Y)] を連続な関数だとすると, Φ ◦ E−1 : H≤M → Cb(X, Y) は連続となる (補題 4) 21/49
  • 21. 定理 1 の証明 ① ⇒ ② (十分条件) まず が可換則と結合則をもつため,Φ は permutation invariant である.次に, Φ 及び ρ が translation equivariant であることは,直接確認できる: Φ(Tτ Z) = ρ M i=1 φ(yi)ψ(· − (xi + τ)) = ρ M i=1 φ(yi)ψ((· − τ) − xi) = ρ M i=1 φ(yi)ψ(· − xi) (· − τ) = Φ(Z)(· − τ) = Tτ Φ(Z). 22/49
  • 22. 定理 1 の証明 ② ⇒ ① (必要条件) Φ は permutation invariant であることを用いて,(制限 Φ|[Zm] は連続であるもとで) Φ: M m=1 [Zm] → Cb(X, Y), Φ(Z) = Φ([Z]) を定義する.補題 3 により,E は逆写像を持つことから,[Z] = E−1(E([Z])) であ る.ゆえに, Φ(Z) = Φ([Z]) = Φ(E−1 (E([Z]))) = (Φ ◦ E−1 ) M i=1 φ(yi)ψ(· − xi) である. 23/49
  • 23. 定理 1 の証明 ② ⇒ ① (必要条件) の続き ρ = Φ ◦ E−1 を用いて ρ: H≤M → Cb(XY) と定義すると,補題 4 により,ρ は連続 である. 次に,ψ が不変カーネル1であることから,E−1 は translation equivariant である. また,仮定より Φ が translation equivariant である. よって,これらで構成された ρ も translation equivariant となる. 1 k(x − y) = ψ(x − y) の形を持つカーネルのこと 24/49
  • 24. 定理 1 の証明における重要な事項 1. ψ:RKHS に関係した正定値カーネルに設定 E に必要とする性質を持たせるために必要 (i)ψ(x, x ) ≥ 0,(ii)ψ(x, x) = σ2 > 0,(iii) x → ∞ のとき ψ(x, x ) → 0 2. φ:K 次元までの y の冪乗 (i.e. φ(y) = (y0, y1, · · · , yK)) [Zaheer et al., 2017] 集合系 (族)Zm ⊆ Zm は multiplicity K E:カーネル ψ の RKHSH と内積 f, g HK+1 = K+1 i=1 fi, gi H で構成された (K + 1) 次元ベクトルのヒルベルト空間 HK+1 = H × . . . × H に写像する: Hm = m i=1 φ(yi)ψ(·, xi) : (xi, yi)m i=1 ⊆ Zm ⊆ HK+1 3. ρ:連続かつ関数間で translation equivariant な写像が可能な関数近似器 25/49
  • 25. Convolutional Conditional Neural Processes ConvCNP ConvCNP は,観測データ Z と ConvDeepSetΦ があるとき, 次の条件付き分布をモデル化する: p(Y |X, Z) = N n=1 p (yn|Φθ(Z) (xn)) = N n=1 N (yn; µn, Σn) with (µn, Σn) = Φθ(Z)(xn) = ρ( m i=1 φ(yi)ψ(· − xi))(xn) Φ の要素である ρ,φ,ψ の設計が重要 ρ と ψ は,データが格子状にあるかないかで異なる 27/49
  • 26. φ の形式について この論文内で取り組むタスク:Z の multiplicity は 1 (i.e. K = 1) 一つの入力位置につき,一つの出力 φ はオーダーが 1 の指数系列:φ(y) = [1 y] hi ← N n=1 1 yn ψ(ti − xn) 1 次元目:データが観測されていることを示す情報 • y = 0 となるようなデータ点 x と区別をするため • 観測点の “密度” を表現している 2 次元目以降:周辺の観測点の値をカーネルによる加重平均 獲得された関数表現 h のうち,h(0) で h(1:) を割る 入力位置が多様に富んでいるときに有効 28/49
  • 27. off-the-grid 時の CONVCNPs Theorem 1 の証明から残りの関数 φ と ρ は決まる: ψ:定常性/非負/正定値を持つカーネル 指数二次 (exponentiated-quadratic; EQ) カーネルの選択が自然 φ との積で関数表現 E(Z) になる ρ:連続/関数空間同士の写像が translation equivalent を持つ CNN により translation equivalent は保持される ρ の入力を離散化,CNN 適用,CNN の出力を連続関数に戻す 29/49
  • 28. off-the-grid 時の順伝搬 require: ρ = (CNN, ψρ), ψ, density γ require: context (xn, yn)N n=1, target (x∗ m)M m=1 1 begin 2 lower, upper ← range (xn)N n=1 ∪ (x∗ m)M m=1 3 (ti)T i=1 ← uniform_grid(lower, upper; γ) 4 hi ← N n=1 1 yn ψ(ti − xn) 5 h (1) i ← h (1) i /h (0) i 6 (fµ(ti), fσ(ti))T i=1 ← CNN((ti, hi)T i=1) 7 µm ← T i=1 fµ(ti)ψρ(x∗ m − ti) 8 σm ← T i=1 exp(fσ(ti))ψρ(x∗ m − ti) 9 return (µm, σm)M m=1 10 end 30/49
  • 29. off-the-grid 時の順伝搬のイメージ 1. 観測点が与えられたときに,観測点の密度と値を使って関数表現を獲得 2. 格子状のデータ点を用意し,各点での平均と分散を畳み込んで計算 3. 格子点間の点における平均と分散をカーネルで戻して出力させる 31/49
  • 30. on-the-grid 時の ConvCNPs 主に画像を入力にするときの場合を考える:ベンチマークでは画像補完タスク off-the-grid の時に比べて実装は簡単 ピクセルの位置を利用 画像 I ∈ RH×W×C に対し,context マスク Mc を設定する ピクセル位置 (i, j) が context に含まれている場合は 1,含まれなければ 0 φ の実装:Zc := Mc I,φ = [Mc, Zc] あとは何回か CNN を通し,出力を 2C で出力する:平均と標準偏差 (µ, log(σ)) = Mt CNN( E(context set) [ conv(Mc) density channel ; conv(Mc I)/conv(Mc)] ) 32/49
  • 31. on-the-grid 時の順伝搬 require: ρ = CNN, E = CONVθ require: image I, context Mc, target mask Mt 1 begin 2 // We discretize at the pixel locations. 3 Zc ← Mc I // Extract Context set. 4 h ← CONVθ([Mc, Zc] ) 5 h(1:C) ← h(1:C)/h(0) 6 ft ← Mt CNN(h) 7 µ ← f (1:C) t 8 σ ← pos(f (C+1:2C) t ) 9 return (µ, σ) 10 end 33/49
  • 32. ConvCNPs の学習 データセット D = {Zn}N n=1 ⊆ Z とパラメータ θ が与えられたとき, Zn を context set(Zn,c) と target set(Zn,t) に分割し,尤度最大化を行う: θ∗ = arg max θ∈Θ N n=1 (x,y)∈Zn,t log p (y|Φθ(Zn,c)(x)) 学習アルゴリズムとして確率的勾配降下法を適用 34/49
  • 33. 実験 on-the-grid 時と off-the-grid 時の両方で ConvCNPs の性能を評価 1. Translation equivariance は,性能改善に役立っているのか? 2. Translation equivariance は,ConvCNPs を訓練時と異なるデータに対して汎化 するのか? 複数の off-the-grid のデータセットでの実験: 不規則にサンプリングされた時系列 (X = R) データを利用 ガウス過程 [Williams and Rasmussen, 2006] と AttnCNP[Kim et al., 2019](潜在 パス抜き) と比較 複数の on-the-grid のデータセットでの実験: 画像データセット (X = R2) 36/49
  • 34. 2 種類の CNN アーキテクチャ 1D 回帰実験で使うモデル: 入力カーネル ψ と出力層 φp 学習可能な length scale パラメータありの EQ カーネル ネットワークの大きさで 2 種類提案 ConvCNP:4 層の畳み込み,カーネルサイズ 5, [16, 32, 16, 2] チャンネル • パラメータ数 5506 だと思うんだけど,論文では 6537 ConvCNPXL:UNet の構造から発想 • 12 層+skip coneection (最初の 6 層でチャンネル倍,終わり 6 層でチャンネル半分) 37/49
  • 35. Synthetic 1D データセット 4 種類のカーネルを使ったガウス過程からサンプリングされたデータセットで回帰 EQ カーネル Matern-5 2 カーネル weakly-periodic カーネル sawtooth 過程 Model Params EQ Weak Periodic Matern Sawtooth CNP 66818 0.88 ± 3e-3 -1.10 ± 2e-3 -0.78 ± 1e-3 -0.16 ± 1e-5 AttnCNP 149250 2.58 ± 4e-3 -1.10 ± 2e-3 -0.42 ± 2e-3 0.33 ± 2e-3 ConvCNP 6537 2.06 ± 5e-3 -1.14 ± 2e-3 0.37 ± 4e-3 2.21 ± 4e-3 ConvCNPXL 50617 2.93 ± 4e-3 -0.41 ± 2e-3 0.50 ± 4e-3 2.66 ± 1e-3 AttnCNPConvCNP 38/49
  • 36. PLAsTiCC データセット 大型シノプティック・サーベイ望遠鏡によって,現実的な観測条件下で観測された過 渡現象のシミュレーションデータ (Kaggle ページ) 6 種類の天文フィルタによる光子束を計測した 3,500,734 個の “光の曲線” データ 6 次元の時系列データ 比較対象: 優勝モデル:光の曲線をモデリングした GP multi-input-multi-output の CONVCNP Model Log-likelihood MSE Kaggle GP [Boone, 2019] -0.335 ± 0.09 0.037 ± 4e-3 ConvCP (ours) 1.31 ± 0.30 0.040 ± 5e-3 39/49
  • 37. Predator-Prey モデル:SIM2REAL シミュレーションデータで学習して,実データでテスト 捕食–被食関係による個体数の変動を表現したロトカ・ヴォルテラの方程式を 利用して,シミュレーション ロトカ・ヴォルテラ過程 [Papamakarios and Murray, 2016] のパラメータ推定に利用 Hudson’s Bay lynx-hare データセット (実データ) を条件づけて一部を補完 AttnNP ではできなかった シミュレーションデータが可変長で translation equivariance が必要だから? 40/49
  • 38. 2D 画像補完 ピクセル座標 x∗ i の強度 y∗ i (RGB:∈ R3,グレースケール:∈ R) を予測 4 種類のよくあるベンチマークデータセットで実験 MNIST,SVHN,32 × 32,64 × 64 の CelebA いずれも一つの物体が中央に位置 1 しているため,translation equivariance が 性能悪化させているかもしれない 複数の物体が非中央に位置している画像でもテスト zero-shot MNIST(ZSMM) 訓練時は 1 枚辺り一個の数字,テスト時は 1 枚あたり 2 つの数字 Model Params MNIST SVHN CelebA32 CelebA64 ZSMM AttnCNP 410k 1.08 ±0.04 3.94 ±0.02 3.18 ±0.02 -0.83 ±0.08 ConvCNP 181k 1.19 ±0.01 3.89 ±0.01 3.19 ±0.02 3.64 ±0.01 1.21 ±0.00 ConvCNPXL 408k 1.26 ±0.01 3.97 ±0.03 3.35 ±0.02 3.70 ±0.01 0.30 ±0.75 41/49
  • 39. 2D 画像補完の結果 ZSMM の補完における対数尤度ヒストグラムと異なる percentiles における補完結果 ConvCNP は,out-of-distribution であっても,うまく出来ている AttnCNP:訓練データに偏り,中央に “平均” 的な数字を予測 42/49
  • 40. その他の画像補完結果 CelebA や MNIST で学習させた ConvCNP を転移させる Figure 3: 95%欠損したオスカー写真 43/49
  • 41. まとめ Neural process Family と ConvCNP について発表 Translation equivalence という帰納的バイアスを追加 Convolutional Deep Sets に関する定理を示す 畳み込みをうまくモデルに組み込む 様々な回帰タスクの実験で既存の AttentionCNP を上回る 1D 回帰及び 2D 回帰 (画像補完タスク) 感想 カーネルをうまく使ってあげることで,DNN だけでは難しいところをカバーし ているのはうまい きちんと証明しているのは強い (8p に及んでる)(つらい) 44/49
  • 42. References i [Boone, 2019] Boone, K. (2019). Avocado: Photometric classification of astronomical transients with gaussian process augmentation. arXiv preprint arXiv:1907.04690. [Cohen and Welling, 2016] Cohen, T. and Welling, M. (2016). Group equivariant convolutional networks. In Balcan, M. F. and Weinberger, K. Q., editors, Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 2990–2999, New York, New York, USA. PMLR. 45/49
  • 43. References ii [Galashov et al., 2019] Galashov, A., Schwarz, J., Kim, H., Garnelo, M., Saxton, D., Kohli, P., Eslami, S., and Teh, Y. W. (2019). Meta-learning surrogate models for sequential decision making. arXiv preprint arXiv:1903.11907. [Garnelo et al., 2018a] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan, M., Teh, Y. W., Rezende, D., and Eslami, S. M. A. (2018a). Conditional neural processes. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 1704–1713, Stockholmsmässan, Stockholm Sweden. PMLR. 46/49
  • 44. References iii [Garnelo et al., 2018b] Garnelo, M., Schwarz, J., Rosenbaum, D., Viola, F., Rezende, D. J., Eslami, S., and Teh, Y. W. (2018b). Neural processes. arXiv preprint arXiv:1807.01622. [Kim et al., 2019] Kim, H., Mnih, A., Schwarz, J., Garnelo, M., Eslami, A., Rosenbaum, D., Vinyals, O., and Teh, Y. W. (2019). Attentive neural processes. In International Conference on Learning Representations. 47/49
  • 45. References iv [Kondor and Trivedi, 2018] Kondor, R. and Trivedi, S. (2018). On the generalization of equivariance and convolution in neural networks to the action of compact groups. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 2747–2755, Stockholmsmässan, Stockholm Sweden. PMLR. [Louizos et al., 2019] Louizos, C., Shi, X., Schutte, K., and Welling, M. (2019). The functional neural process. arXiv preprint arXiv:1906.08324. [Papamakarios and Murray, 2016] Papamakarios, G. and Murray, I. (2016). Fast -free inference of simulation models with bayesian conditional density estimation. In Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I., and Garnett, R., editors, Advances in Neural Information Processing Systems 29, pages 1028–1036. 48/49
  • 46. References v [Williams and Rasmussen, 2006] Williams, C. K. and Rasmussen, C. E. (2006). Gaussian processes for machine learning, volume 2. MIT press Cambridge, MA. [Zaheer et al., 2017] Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and Smola, A. J. (2017). Deep sets. In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems 30, pages 3391–3401. 49/49