[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps

1
Grasping Field: Learning Implicit Representations for
Human Grasps
Naruya Kondo (Digital Nature Group M1)

書誌情報
2
• 3DV 2020 Best Paper
• 著者：Korrawe Karunratanakul, Jinlong Yang, Yan Zhang, Michael Black,
Krikamol Muandet, Siyu Tang
• 機関：ETH Zurich & Max Planck Institute for Intelligent Systems
• ひとことで言うと
1. 物体の点群から、自然で安定した人の手の把持姿勢を生成 (初の研究)
2. 物体+手が写った画像から、物体と手の3Dメッシュを再構成
• メッシュ等ではなく場として手と把持対象を扱う
• 陰関数大好き！

陰関数
例
• x^2 + y^2 + z^2 = c (球)
• F(x,y,z) = 0
– 境界を表す
良い点
• 計算コストが低い
– ボクセルで1024^3とか大変
• トーラス等も問題なく使える
– メッシュだと穴の推定が必要 (穴無し研究が普通だった )
• 空間を連続的に扱える
– (さまざまな周波数の重ね合わせ?)
4
PIFuも陰関数表現を使った手法
F(x,y) = c
c
この2次元の形
をFで表したい⇨
この空間を考える⇨

符号付き距離関数 (SDF: Signed Distance Function)
• F(x,y,z) = “境界面との距離”
とする関数
– F(x,y,z) > 0: 境界の外
– F(x,y,z) < 0: 境界の中
– (勝手に地球をイメージ)
5
F(x,y) = c
c
この2次元の形
をFで表したい⇨
この空間を考える⇨
-100
0
100
F=cがその形。内側: F>c, 外側: F<c

Grasping Field
6
• 手と把持対象の距離関係をSDFで表したもの
dh
do
dh: 手との距離
do: 物体との距離
両方の外
　手の中
物体の中　
両方の中
(和集合)
良くない
- 手と物体の接地面は (0,0) のベクトル
- それぞれの境界面は (0,do) or (dh,0)
- xyz空間が2次元ベクトルの場に

Grasping Field
7
• 手と把持対象の距離関係をSDFで表したもの
– 接触面
– 貫通部分 (めり込み)
• このSDFをデータドリブンに学習
• 使い道を2つ提案
1. human grasp synthesis (新しいタスクの提案)
2. 3D hand-object reconstruction from a single RGB image

Grasping Field
8
• タスクによって入力・モデル構造は違うが概ねこの図
- 把持姿勢の生成
- 画像から3Dメッシュの再構成
xyz

① human grasp synthesis
9
• タスク
– 物体の点群を与えて、自然で安定する把持姿勢を生成

① human grasp synthesis
10
• 訓練時
– 物体の点群 + 手の点群 + (調べたい)クエリ座標
• 推論時
– 物体の点群 + サンプルした手の点群のz + (調べたい)クエリ座標
loss
loss

Loss
11
• 訓練時loss
• データ数は2772
loss
loss
c(,δ)はクリッピング

メッシュの復元：Marching Cubes Algorithm
• 点群(今回の場合内側だと判定した点群)を適切につないでメッシュを作る方法
• 3D格子上に並んだ点は、局所的には8つのパターンしかない。
• ⇨ それぞれのパターンで、点を内側に内包するように面を引く
12

メッシュの復元：手の3Dモデルへのﬁtting
• 手の3Dモデル「MANO」にfittingし、最終的な姿勢を得る
– 補助用に6部位それぞれの尤度を予測
– (6クラス分類lossを追加)
13

結果 (定性評価、良いサンプル)
14
• 未知物体もよくもてる

結果 (定性評価、悪いサンプル)
15
• ランダムに手の姿勢zをサンプルするため、歪み、貫通がある
– (とはいえサンプルされるほとんどのzが物体に対して的外れな姿勢なはずだけど、生成結果はそれ
なりに掴んでいるのが不思議)
– (⇧Hand Object EncoderにObjectのEncode結果を入力してるので可能)
g.t. raw after fitting

実験
16
• baseline手法を独自に用意
– 物体の点群を入力し、
dh, doを予測するのではなく直接MANOの姿勢パラメータを予測
– SDFを介さない手法

17
• Contact ratio: 全データサンプルに対し、接地面が発生した割合
• Physics simulation: 物理simで再現し、短い時間で移動した量
• Perceptural score: 自然な把持かどうかの人の評価(3人...)
• Baseline比で貫通は多いけど、見た目の自然さと物理的安定性がgood
– (zをサンプルした回数に依りそう…? 1回なのかな)
– (SDF使わなくても割と良い?)
結果

• タスク (と結果)
18
g.t.
raw after fitting
input
② 3D hand-object reconstruction from a single RGB image

19
• 入力: 画像とクエリ点
• 出力: dh, do
– ⇨ mesh 復元

20
SDFのLoss:
貫通のLoss:
接触促進のLoss:
c(,δ)はクリッピング
dh + doしてるだけ
⇦ 1/α 以下なら0を出力さ
せて
接触を促す
⇦ これのみだと、
接触が起きなくなる

比較結果
21
• 従来手法比でHandはかなり良い。Objectは悪化
– object shapeがgivenに特化してないため
• Lを加えると貫通が押さえられるが、(接触促進を加えていても)接触しなくなる
• Decoderを分岐させると、Hand・Objectともに改善するが、貫通が増える
⇦ これのみ従来手法
(メッシュベース)
2De: decoderが分岐
L: 貫通と接触促進
　lossを加えたモデル
MANO: fittingあり
従来法と条件を揃えるため、
全条件でobject shapeがgiven

Limitation
22
• 意味のある持ち方にはなれない
– 電動ドリルのグリッパーを掴んでほしい
– 刃物の持ち方は2通りある
• 画像から把持アニメーションを作るなどはfuture work

まとめと感想
23
• SDFを使ったGrasping Fieldを提案
– 把持姿勢生成、物体と手の3D再構成に使える
– 見た目が自然で、物理的にも安定する
• 感想
– 同じ発想で2つのタスクが解けていてすごい
– Physics simulationの評価指標が良い感じ
• (そんなにそれっぽく持てるんだ)
– ただあまりSDFの良さがわからなかった…
• 内容多すぎて8ページに収まらなかった感 (appendixもう少し頑張って…)

[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (9)

[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps