Contenu connexe
Similaire à [DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRFlow) (20)
Plus de Deep Learning JP (20)
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRFlow)
- 1. 1
Neural Radiance Flow for 4D View Synthesis and Video
Processing (NeRFlow)
2021.08.06 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab
- 3. Neural Radiance Flow for 4D View Synthesis and Video
Processing
• Yilun Du1, Yinan Zhang2, Hong-Xing Yu2, Joshua B. Tenenbaum1,
Jiajun Wu2
• 1MIT, 2Stanford
• 最後2名は直観物理学系の研究をたくさん出してる(例:ジェンガのロボット)
• https://arxiv.org/abs/2012.09790 (2020/12/17)
• ICCV2021 accepted(著者のページによる)
• プロジェクトページ https://yilundu.github.io/nerflow/
• コードは近日公開予定らしい・・・
※特に出典が明記されていない図は当論文・サイトから引用
書誌情報
3
- 4. 最近,Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている
①NeRF @DL輪読会 2020/3/27(土居さん)
• https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-
synthesis
② NeRFの派生研究まとめ @DL輪読会 2021/3/19(土居さん)
• https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
③ NeRF-VAE @DL輪読会 2021/4/16(谷口さん)
• NeRFを潜在変数モデル(VAE)と組み合わせて複数のシーンに汎化させる.ICML2021.
• https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
④GIRFFE @DL輪読会 2021/4/30(松嶋)
• 複数のNeRFを組み合わせてシーンのdisentangleを目指す.CVPR2021 best paper.
• (すみません近日中にアップロードする予定です)
⑤Grasping Field @DL輪読会 2021/6/18(近藤さん)
• INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う.3DV2020 best paper.
• https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-
grasps
本発表について(背景の解説資料)
4
- 7. 3次元座標 ( ) と視線方向 ( ) を
入力として輝度 ( ) と
密度 を出力するNN (シーン関数)
様々な角度から撮った写真で学習
➡︎
別の角度から撮った写真を
生成できる(novel view synthesis)
x d
r, g, b
σ
Fθ : (x, d) ↦ ((r, g, b), σ)
NeRF (谷口さんのDL輪読会スライド)
7
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
- 9. • 学習はレンダリングした画像と
真の画像との2乗誤差の最小化
• volume renderingが微分可能なので
end-to-endに学習可能
• レンダリング時に使うサンプル点の
選び方などには様々な工夫あり
NeRF (谷口さんのDL輪読会スライド)
9
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
- 10. NeRF (谷口さんのDL輪読会スライドを編集)
Pros
• 連続的な3D表現として画期的
• 従来は点群・メッシュなどの
離散的な表現を利用
Cons
• シーンごとにたくさんの画像
を用意して学習が必要
• 未知のシーンに汎化しない
• 基本的にレンダリング手法
• 獲得される表現に関して
あまり議論されていない
10
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
https://www.matthewtancik.com/nerf
- 13. 時間的に変化する3Dのシーンを
radiance field とflow field の2つを組み合わせて表現
• Radiance field は画像の再構成で学習(普通のNeRFと同様)
• Flow field はoptical flowの再構成で学習
2つのfieldを同時に学習する際の工夫がいくつかある(後述)
Rθ Fθ
Rθ
Fθ
NeRFlowの全体像:2つのfieldの同時学習
13
- 14. NeRFの入力に時刻 を(単純に)追加し拡張
• 入力:6次元
• 位置+時刻:
• 視線方向:
• 注:この は角度(論文中でDNNのパラメータ と表記被ってる)
• 出力:4次元
• 色:
• 密度:
t
x = (x, y, z, t)
d = (θ, ϕ)
θ θ
c = (r, g, b)
σ
①Radiance Field Rθ
14
- 16. ②Flow Field Fθ
空間中の各点がどのように動くかをモデル化
• 入力:6次元
• 位置+時刻:
• 出力:3次元
•
各点の動き(flow):
• 時刻 でのある点 は
時刻 では に移動
x = (x, y, z, t)
f = (fx, fy, fz) =
(
∂x
∂t
,
∂y
∂t
,
∂z
∂t )
ts (xs, ys, zs)
tg (xs, ys, zs) +
∫
tg
ts
f(x, y, z, t)
16
- 20. (recap)NeRFのvolume rendering (土居さんスライド)
20
I. 色の再構成誤差
https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
Radiance fieldからのボリュームレンダリング 1
• 古典的なボリュームレンダリングの原理に基づいた⽅法を使⽤
• 1984年にKajitaらが提案した⼿法 (Ray Tracing Volume Densities) を引⽤していた
• Ray Tracingとは、カメラに届く光線を逆⽅向に辿ることにより画像を⽣成する⼿法のこと
• 本物の写真に近い画像をレンダリングできる⼿法として知られている
• レイトレーシングによるボリュームレンダリングでは、光線を逆⽅向に辿りながら、物体のvolume
density (透過率) を考慮しつつ各点の⾊を⾜し合わせ2D画像のあるピクセルの⾊を計算するイメー
ジ (私の理解です)
• 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる
• カメラの光線を表すベクトル (oを通りdの⽅向に伸びる) :
• t_n, t_fは仮想的に設定した最も近い点と遠い点
• T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで
粒⼦にぶつかることなく移動する確率を表す (transmittance)
- 21. Radiance fieldからのボリュームレンダリング 2
• 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を⽤
いて区分求積法に基づいた近似計算を⾏う
• この⽅法についてはMaxのボリュームレンダリングのレビュー論⽂で議論されている
• サンプルする点の間隔は学習時には毎回ランダムに変化させている
(recap)NeRFのvolume rendering (土居さんスライド)
21
I. 色の再構成誤差
https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
volume renderingが微分可能なので
レンダリングした色 と実際の画像の色 のL2 lossを取れば学習可能
̂
C(r) C(r)
- 22. II. Optical flowの再構成誤差 ℒCorr
Farnback法を使って求めたoptical flowをGTのflowとして利用
キーポイントの対応関係を損失に用いる
• 時刻 でのキーポイント に対して,時刻 では,flow fieldを用いて
として予測できる(実際の正解データは )
• 対応するキーポイントの予測のMSE を損失としてflow firldを学習
• (松嶋の疑問)
• キーポイントをどうやって求めている?
• カメラ自体の動きは引き抜いたoptical flowを計算して利用している…?
それとも視点移動を含めたoptical flowをそのまま使っている?
ts xs = (xs, ys, zs) tg
xc
g = xs +
∫
tg
ts
Fθ(x(t))dt xg = (xg, yg, zg)
ℒCorr = xc
g − xg
22
https://docs.opencv.org/3.4/d4/dee/tutorial_optical_flow.html
- 23. 2つのfieldを同時に学習する際の工夫
Radiance field と Flow field を
同時に学習する際の制約項を提案
• A. 見た目に関する一貫性の制約 (appearance consistency)
• B. ジオメトリに関する一貫性の制約 (geometry consistency)
• C. 動きに関する一貫性の制約 (motion consistency)
Rθ Fθ
23
- 26. C. 動きに関する一貫性の制約 ,
ℒFlow ℒAcc
「(1)何も物体がない点の動きはゼロであり,
(2)自然なシーンでは物体はなめらかに動く」という制約
• (1)rayの上で 個の点をサンプルし,残りの透過度が0.99以上に
なるように選んだ手前の 個の点 のflowのL2を制約項にする
• ray上のカメラと物体の間の何もない点のflowを0に近づける項になるはず
• (2)空間・時間のflowの勾配が小さくなるように制約
• ランダムに点をサンプルしてきて,その勾配のL2を制約項にする
N
K qk
ℒFlow = Fθ (qk)
ℒAcc = ∇Fθ(x)
2
26
2つのfieldを同時に学習する際の工夫
- 34. Scene Structure and Dynamics Estimation
学習したfieldからdepthやflowを推定できる
• (左)consistensyによってflow fieldがdynamicsを
より正確にモデル化できるようになる
• (右)単眼カメラから撮影した動画からdepthの推定ができる
34
https://yilundu.github.io/nerflow/
https://yilundu.github.io/nerflow/