【DL輪読会】HexPlaneとK-Planes

DEEP LEARNING JP
[DL Papers]
論文紹介：
HexPlaneとK-Planes
Ryosuke Ohashi, bestat Inc.
http://deeplearning.jp/

書誌情報①
2
- arxivプレプリント (2023/1/23)
- matrix-vector分解を(3+1)Dに応用＆改良
- 動画のRF化時間短縮

書誌情報②
3
- arxivプレプリント (2023/1/24)
- tri-plane表現を(3+1)Dに応用＆改良
- 動画のRF化時間短縮

背景：場，信号
4
空間・時空間に広がる何らかの物理量のこと
場や信号は，空間Xから物理量の値域Yへの関数として書ける
平面上の磁場
https://en.wikipedia.org/wiki/Vector_field
M: R^2 → R^2
M(x, y) = (M_x, M_y)

背景：場，信号の例
5
RGB画像
I: R^2 → R^3
I(u, v) = (I_R, I_G, I_B)
輝度場 (Radiance Field，以下RF)
c: R^3 x S^2 → R^3
c(r, d) = (c_R, c_G, c_B)
https://www.matthewtancik.com/nerf
謎のガスが各方向にいろんな色の光を発しているイメージ

背景：DyNeRF
6
“Neural 3D Video Synthesis from Multi-view
Video”
T. Li et al. (CVPR2022)
動画のRF化に関する論文
綺麗に作れるが，最適化にとても時間がかかる

背景：パラメトリック関数 vs グリッド
7
場・信号の関数近似方法
①パラメトリック関数
- パラメーター数が少ない
- 遅い
- 扱いが難しい
②グリッド（ルックアップテーブル）
- パラメーター数が多い
- 高速
- 扱いが簡単 https://mathworld.wolfram.com/FourierSeries.html
Fourier級数展開 vs 折れ線グラフ

8
静的シーンのRF化では，グリッドベース手法が主流化している
DVGO, Plenoxels, EG3D, Instant-NGP, TensoRF, ...
→ 動画のRF化もグリッドベースでやりたい！！
背景：グリッドベースでやりたい

問題：N^4
9
とはいえ，時空間のグリッド化はメモリ消費量が非現実的
- 空間方向を512分割（5mの範囲を1cm刻み）
- 時間方向を512分割（60sec * 10FPS）
→ 512^4 * 4byte = 256GB

解決方法：テンソル分解
10
HexPlaneやK-Planesでは，テンソル分解を使うアプローチが採用
されている
直観的には，高次元の量を低次元の量の積で分解表示する，というイメージ

K-Planes
11
①動画の場合，XY, YZ, ZX, XT, YT, ZT平面に特徴グリッドを設ける
→ 512分割の場合，6 * 512^2 * 4byte = 6MB
②(x, y, z, t)に対し，各平面に射影した点から特徴を拾ってきて要素
毎積をとり，MLPに流す

K-Planes：積をとるのが大事
12
各平面から拾ってきた特徴の和をとると，局在するシグナルの表現が難しい
積をとれば容易に表現可能

K-Planes：積をとるのが大事
13
特徴の積をとる方式だと，MLPを線形にしても高い性能がでる

K-Planes：実験結果
14
←特定データセットでの値のため，全データセット平均ならもっと高いはず，らしい
短時間で良い感じに動画をRF化できている
↓マルチビュー動画
↑旅行者が撮った時間・天気が違う多視点画像

HexPlane
15
最終的に提案しているアーキテクチャはK-Planesと本質的には同じ
TensoRFに基づき，matrix-vector分解を出発点にいろいろ考察・比
較実験している

HexPlane：matrix-vector分解
16
matrix-vector分解
XY平面上の特徴とZ軸上の特徴の積
YZ … X …
ZX … Y …
を使ってXYZ空間上の特徴をつくる
“TensoRF: Tensorial Radiance Fields”
A. Chen et al.
https://arxiv.org/abs/2203.09517

HexPlane：アーキテクチャ
17
交差が０次元になる平面ペアでのみ積をとっている

HexPlane：やはり積をとるのが大事
18
Fusion-Two（左図の+のとこ）で積をとると，平面
の交差が1次元になり局在化しきらないので，Fusion-
Oneで積をとるより弱い？

HexPlane：実験結果
19
短時間で良い感じに動画をRF化できている

まとめ・雑感
20
まとめ
- テンソル分解することで動画のときでもグリッドベース手法が使える
- 現実的な時間でいい感じに動画をRF化できて嬉しい
雑感
- 積をとるとシグナルを局在化しやすくて良い，という気付きはパラメトリック関数を使うとき
にも有用そう
- ハッシュグリッドを使う場合に，2Dハッシュグリッドに分解したほうがコリジョンが緩和され
ないか？
- ほぼ同じタイミングで根本的に同じアイデアの論文が出てたのが面白かった

【DL輪読会】HexPlaneとK-Planes

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】HexPlaneとK-Planes

Notes de l'éditeur