End-to-end Recovery of Human Shape and Pose

End-to-end Recovery of
Human Shape and Pose
東京⼤学松尾研究室
⼤野峻典

書誌情報
• https://arxiv.org/abs/1712.06584
• 著者：Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra
Malik
– University of California Berkeley, MPI for Intelligent Systems Tubingen Germany,
University of Maryland College Park
• 公開⽇：18 Dec 2017
• プロジェクトページ：https://akanazawa.github.io/hmr/
• デモビデオ：https://www.youtube.com/watch?v=bmMV9aJKa-c
2

アジェンダ
• Human Mesh Recovery（HMR）タスクとは
• ⽣成された3Dの真偽の識別器を導⼊した, end2endアーキテクチャ
– 論⽂の主張・ポイント
– 従来⼿法の問題点
– 提案⼿法
– 実験結果
3

Human Mesh Recovery (HMR) タスクとは
• 今回取り組むタスク
• （⼊⼒）単⼀のRGB画像 → （出⼒）⼈体の完全な3Dメッシュ
– こんな感じ
• 難しさ
– ⾃然な（in-the-wildな）画像の3D教師データ⽤意が⼤変（3D測定できるようにした特
殊な環境下で撮影されたものばかりで実⽤性△）
– 単視点だと、同じ⾒え⽅でも3Dのあり⽅は異なるものなどある.
– ⼈がどれくらいのスケールで写っているかわからない.
4

論⽂の主張・ポイント
• GAN的発想を取り⼊れる事で, 画像と対になる⼈の3Dデータが無くても,
それらしい⼈の3Dの⽣成ができるようになる.
– 本物か/⽣成されたものか判断する識別器を学習することで, 独⽴した⼈の3Dデータ
セットから, それらしい⼈の3Dデータに関して, 弱教師あり学習的に関節的に学ぶ
• (2D関節位置推定を挟まずに,) end2endで3Dの姿勢推定を⾏うことで, 2D
画像にある情報を無駄にしない.
• (スケルトンででなく) メッシュを出⼒. 情報量多い分応⽤範囲も広い.
5

従来⼿法の問題点
• 適⽤可能な画像のバリエーションの⼩ささ
– 問題：既存の3D復元⼿法は、セットアップされた環境下で撮影された画像を対象にし
ており、in-the-wildな画像へは適⽤できない. (ドメイン変化に対するロバスト性❌)
• 2stage：2Dの関節位置推定 ⇛ この結果を⽤いて3D推定
– 問題：2D関節位置推定の精度依存, 2D情報の無駄
– 背景：既存は, 3D推定のモデルがドメイン変化に対してロバストでなかったため, ドメ
インの変化分を⼩さくするため2Dのキーポイントに情報を抽象化してから, 3Dモデル
に渡していた
6

提案⼿法
• 画像の特徴量表現から3D回帰モデルにより3Dの潜在表現を推定. 以下の誤
差に対して最適化するように学習.
– 再構築誤差 Lreproj
– 識別器Dに関する誤差 Ladv
7

提案⼿法：3D Body Representation
• ⼈体：Skinned Multi-Person Linear (SMPL) で表現
– Shape β ∈ R10 ：主成分空間の10次元で表現. (height, weight, body proportions等)
– Pose θ ∈ R3K: K=23関節の3D回転度で表現. (各関節の変形度等)
• カメラ：
– 回転 R∈R3x3, 平⾏移動 t∈R2、スケール s∈R
• ⇛ 全て合わせて
• Θが与えられた時, ⼈ X(θ, β) はで投影され
る.
8

提案⼿法：Iterative 3D Regression with Feedback
• Θを直接回帰で求めるのは難しいので, 残差計算し, Θを繰り返し更新する.
– 3D回帰モジュールの⼊⼒に, 画像特徴量Φと現在のパラメータΘtを受取り, 残差ΔΘtを
出⼒する
• 誤差
– 2Dの関節reprojection誤差
– 3Dのground truthデータがある時は, 以下の誤差関数を最⼩化
– Adversarial Loss（後述）により, 学習が⼈体3Dのマニフォールド上で進むように.
9

提案⼿法：Factorized Adversarial Prior
• SMPLパラメータの真偽を判定する識別器.
• Shape, Poseそれぞれに対して独⽴に識別器を⽤意.
– Poseはさらに分解:
• 各関節回転毎に識別器を⽤意. ⇛ 各関節の⾓度の制約を学習できる.
• 全ての関節を⼊⼒にした, 全体観をチェックするような識別器も学習. ⇛ 全ての関節の回転⾓
を組み合わせた分布も学習
– ⇛ 識別器の⼊⼒が低次元になるため, 学習が安定する.
• 関節の制約に関する事前知識は⼊れない(先⾏研究とは異なる)
– 本⼿法では, 識別器によりデータドリブンに制約を学習.
• エンコーダ E に関する⽬的関数：
• 各識別器 Di の⽬的関数：
10

実験結果
• 3Dスケルトン以上のことをしているが、いかんせんground truthが存在し
ないので、そのままの評価が難しい
• ⇛ 今回の評価軸
– （標準的な）3D関節位置推定タスク
– Body part segmentationタスク
• データセット：MS COCO
• 青は2d-3d対あり、赤は対無し
11

実験結果：3D 関節位置推定
• データセット
– Human3.6M：研究環境で撮られた系の画像
– MPI-INF-3DHP：より多様なポーズ, ⼈の画像(in-the-wildにはまだ遠い)
• 評価指標
– Mean Per Joint Position Error (MPJPE)
– Reconstruction Error: 厳格なアライメントの後のMPJPE. グローバルミスアラインメ
ントを除いて, 再構成された3Dスケルトンの質を評価. (⼈体的にありえないけど、誤差
最⼩化するようなトリッキーな推定を排除したもの(と理解))
• Human 3.6M
12

• データセット：Human3.6M
13
Protocol2: 同じsubjectの訓練/テスト
セットを使⽤し, テストは前からのカメ
ラに限定
今回同様3Djoints+SMPLまで出⼒する既存⼿
法. 2Dkeypointsを⼊⼒にもつのは異なる.
本⼿法が⼤差で勝った.
Protocol1: 5subjects上で訓練して, 異
なる2subjects上でテスト.
今回同様関節位置のみならずキネマティックツ
リーにおける関節⾓も出⼒する既存⼿法. ただ
し, 事前知識として各関節の全27⾃由度しか与
えていない(本⼿法はshape含む85⾃由度)
また, 既存⼿法ではスケールと⾻の⻑さの仮定
を与えている.
3Djoints+αで出⼒している⼿法には勝ってい
て, 3Djointsのみのモデルとも良い勝負.
参考: http://vision.imar.ro/human3.6m/description.php

• MPJPEと視覚的なクオリティはあまり相関していないことがわかった.
14

• データセット：MPI-INF-3DHP
– 室内、屋外で撮影されたもの. マーカを⽤いずにground truthを作成するので、
ground truthに⽐較的ノイズが含まれがち.
– 指標
• MPJPE
• Percentage of Correct Keypoints (PCK): threshold 150mm
• Area Under the Curve (AUC): PCKの閾値の範囲でのAUC
15
3Djoints専⽤の既存⼿法といい勝負.
After Rigid Alignmentでは上回る.
⇛ 既存⼿法では⼈体的な制約を無視し体歪ませて評価
値上げられるのに対して, 本⼿法のshape/poseの⽅が
より意味的に正しいということでは

実験結果：Human Body Segmentation
• 6つの⾝体部位+背景のセグメンテーション
• 今回はセグメンテーションラベルは学習には⽤いていない
16
セグメンテーションデータを最適化対象として学習時
に利⽤した既存⼿法と、いい勝負.

実験結果：Without paired 3D Supervision
• 関節位置推定, 3D再構築を⾏う既存⼿法では、3Dの教師データを必要とし
た.
• 本⼿法では、2D-to-3Dの対の教師データ無くとも、Adversarial Priorがあ
れば既存のタスク設定においても、精度が出ることを⽰した。
17
⾚が対データ無し
Adversarial priorが無いとぐちゃぐちゃに.(ただしそれでも2D誤差は低い)

End-to-end Recovery of Human Shape and Pose

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à End-to-end Recovery of Human Shape and Pose

Similaire à End-to-end Recovery of Human Shape and Pose (14)

Dernier

Dernier (11)

End-to-end Recovery of Human Shape and Pose