【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

1
NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View Synthesis
2023.1.27 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab

画像入力の模倣学習の方策の学習時に，NeRFをdata
augmentationするためのツールとして利用し，
模倣学習におけるcompound errorを低減
• Eye-in-hand（ロボット
アームの手先にカメラを
固定）の設定において提案
• 手先の座標にノイズを
加えた姿勢からの画像を
NeRFで生成しデータ
セットに加える
• シミュレータと実機で検証
概要
2

NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View
Synthesis
• Allan Zhou1, Moo Jin Kim1, Lirui Wang2, Pete
Florence3, Chelsea Finn1
• 1Stanford, 2MIT CSAIL，3Google
• https://arxiv.org/abs/2301.08556
• v1: 2023/1/18 （フォーマット的にICRA2023にsubmit？）
• サイト：https://bland.website/spartn/
※特に出典が明記されていない図は当論文・サイトから引用
書誌情報
3

最近，Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている
①NeRF @DL輪読会 2020/3/27（土居さん）
• https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
②NeRFの派生研究まとめ＠DL輪読会 2021/3/19（土居さん）
• https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
③NeRF-VAE ＠DL輪読会 2021/4/16（谷口さん）
• NeRFを潜在変数モデル（VAE）と組み合わせて複数のシーンに汎化させる．ICML2021．
• https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
④GIRFFE ＠DL輪読会 2021/4/30（松嶋）
• 複数のNeRFを組み合わせてシーンのdisentangleを目指す．CVPR2021 best paper．
⑤Grasping Field ＠DL輪読会 2021/6/18（近藤さん）
• INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う．3DV2020 best paper．
• https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-grasps
⑥NeRFlow ＠DL輪読会 2021/8/6（松嶋）
• NeRFを動的なシーンを学習できるように拡張．ICCV2021.
• https://deeplearning.jp/neural-radiance-flow-for-4d-view-synthesis-and-video-processing-nerflow/
⑦HyperNeRF ＠DL輪読会 2021/10/1（近藤さん）
• 動的でdeformableなシーンを一つの映像だけで3D再構成．SIGGRAPH Asia2021．
• https://deeplearning.jp/a-higher-dimensional-representation-for-topologically-varying-neural-radiance-fields/
⑧LIIF ＠DL輪読会 2021/11/19（秋田さん）
• INRで2D画像の超解像，CVPR2021．
• https://www.slideshare.net/DeepLearningJP2016/learning-continuous-image-representation-with-local-implicit-image-function-cvpr2021
…and more
本発表について（背景の解説資料）
4

3次元座標 ( ) と視線方向 ( ) を
入力として輝度 ( ) と
密度を出力するNN (シーン関数)
様々な角度から撮った写真で学習
➡︎
別の角度から撮った写真を
生成できる(novel view synthesis)
x d
r, g, b
σ
Fθ : (x, d) ↦ ((r, g, b), σ)
NeRF （谷口さんのDL輪読会スライド）
5
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

• シーンを3次元座標と視線方向から輝度と密度への関数として表現
• この関数がわかると、volume renderingを用いて任意の視点から
の画像を生成可能（詳しくは土居さんの資料参照）
6

• 学習はレンダリングした画像と
真の画像との２乗誤差の最小化
• volume renderingが微分可能なので
end-to-endに学習可能
• レンダリング時に使うサンプル点の
選び方などには様々な工夫あり
7

NeRF （谷口さんのDL輪読会スライドを編集）
Pros
• 連続的な3D表現として画期的
• 従来は点群・メッシュなどの
離散的な表現を利用
Cons
• シーンごとにたくさんの画像
を用意して学習が必要
• 未知のシーンに汎化しない
• 基本的にレンダリング手法
• 獲得される表現に関して
あまり議論されていない
8
https://www.matthewtancik.com/nerf

Instant NGP
• 2022年1月にNeRFの学習が数秒で終わる
デモが公開され世界が震撼
• ハッシュエンコーディングを活用して高速化
• NeRFだけではなくDeepSDFなど
ほかのINRにも使える
• https://arxiv.org/abs/2201.05989
• https://github.com/NVlabs/instant-ngp 9
INRの高速化

問題設定：画像入力による物体把持の模倣学習
模倣学習：オフラインに集められたデータセットから方策を学習
• Behavior Cloning (BC)：観測（入力）と行動（出力）のマッピン
グ（方策）を教師あり学習で学習
• データセットが最適（エキスパート）と仮定
• 共変量シフトに弱いことが知られている
• 小さい誤差によってデータ分布から外れてしまい戻ってくるのが難しくなる
• コストの高い環境とのオンラインの相互作用が不要
• RLはオンラインでデータを集める
10

アイデア：NeRFでエキスパートにノイズを加える
• オフラインに収集したエキスパートで
シーンごとにNeRF（instantNeRF）を
学習
• エキスパートにノイズを加えた擬似軌道
を生成し，対応する画像をNeRFで生成
• ノイズを加えた軌道から，エキスパート
の軌道に修正する行動をデータセットに
• 入力にNeRFで生成した画像を利用
11

アルゴリズム
12
系列（エピソード）ごとに
NeRFを学習（軌道で）

アルゴリズム
13
手先の姿勢にノイズを加える

アルゴリズム
14
正解の行動を再計算
（手先姿勢制御の場合
次の姿勢から計算可能）

アルゴリズム
15
ノイズを加えた手先座標での
画像をNeRFを使って生成

アルゴリズム
16
データセットに追加

エキスパートからのNeRFの学習
• 世界座標系でのカメラ姿勢にはカメラキャリブレーションの誤差が
乗るので，カメラの姿勢を画像からCOLMAPを使って推定
• 姿勢なしの画像からNeRFするときと同じ方法
• COLMAPで推定した姿勢と世界座標系でのカメラ姿勢を対応づける
（appendex D2）
• NeRFのstaticな制約を満たすために，
エキスパートからgripperから物体を
掴むまでの画像を利用
• 画像からgripperに対応する
ピクセルをマスクしてNeRFを学習
17

Instant-NGPの活用
元々のNeRFの学習は非常に重いので，Instant-NGPを活用
• 各シーン（エピソード）ごとに，Instant-NGPを3.5k step学習
• それぞれRTX2080Tiで30秒かかる
• 2500シーンを4GPUで並列に学習して計7時間程度かかる
• でも，オフラインの学習なので，テスト時には問題ない
18

シミュレータでの実験
1500個のShapeNetの物体に対してで2500個のエキスパートを
生成
• ACRONYMデータセットにある
把持姿勢から軌道を生成
• 各軌道は20ステップ以内
• 各軌道につき100パターンaugument
• 学習時にないShapeNetとYCBで評価
19

実機での実験
Franka Pandaで実験
• 行動空間は前ステップとの姿勢の差分
• 4HzでCartesian Impedance制御
• VRコントローラでエキスパート作成
• 各軌道50パターンでaugument
20

その他実験の結果
ウェブサイトに行くつか動画がある
https://bland.website/spartn/
21

まとめ・感想
• 手法は非常にシンプル
• 計算量の大きいNeRFはオフライン学習なら使えるということを
うまく生かしている
• NeRFを方策学習のデータ生成器として利用する観点では，
（一般的な）モデルベースRLと同じような仕組みになっている
• 世界のモデルを学習し，そのモデルをシミュレータとして擬似データを
大量に生成，方策学習を効率化する
• ここまで一般化すると世界モデルみが出る
（3D世界・レンダリングの事前知識を導入した世界モデルといえそ
う）
22

【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis