SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
End-to-end Recovery of
Human Shape and Pose
東京⼤学 松尾研究室
⼤野峻典
書誌情報
• https://arxiv.org/abs/1712.06584
• 著者:Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra
Malik
– University of California Berkeley, MPI for Intelligent Systems Tubingen Germany,
University of Maryland College Park
• 公開⽇:18 Dec 2017
• プロジェクトページ:https://akanazawa.github.io/hmr/
• デモビデオ:https://www.youtube.com/watch?v=bmMV9aJKa-c
2
アジェンダ
• Human Mesh Recovery(HMR)タスクとは
• ⽣成された3Dの真偽の識別器を導⼊した, end2endアーキテクチャ
– 論⽂の主張・ポイント
– 従来⼿法の問題点
– 提案⼿法
– 実験結果
3
Human Mesh Recovery (HMR) タスクとは
• 今回取り組むタスク
• (⼊⼒)単⼀のRGB画像 → (出⼒)⼈体の完全な3Dメッシュ
– こんな感じ
• 難しさ
– ⾃然な(in-the-wildな)画像の3D教師データ⽤意が⼤変(3D測定できるようにした特
殊な環境下で撮影されたものばかりで実⽤性△)
– 単視点だと、同じ⾒え⽅でも3Dのあり⽅は異なるものなどある.
– ⼈がどれくらいのスケールで写っているかわからない.
4
論⽂の主張・ポイント
• GAN的発想を取り⼊れる事で, 画像と対になる⼈の3Dデータが無くても,
それらしい⼈の3Dの⽣成ができるようになる.
– 本物か/⽣成されたものか判断する識別器を学習することで, 独⽴した⼈の3Dデータ
セットから, それらしい⼈の3Dデータに関して, 弱教師あり学習的に関節的に学ぶ
• (2D関節位置推定を挟まずに,) end2endで3Dの姿勢推定を⾏うことで, 2D
画像にある情報を無駄にしない.
• (スケルトンででなく) メッシュを出⼒. 情報量多い分応⽤範囲も広い.
5
従来⼿法の問題点
• 適⽤可能な画像のバリエーションの⼩ささ
– 問題:既存の3D復元⼿法は、セットアップされた環境下で撮影された画像を対象にし
ており、in-the-wildな画像へは適⽤できない. (ドメイン変化に対するロバスト性❌)
• 2stage:2Dの関節位置推定 ⇛ この結果を⽤いて3D推定
– 問題:2D関節位置推定の精度依存, 2D情報の無駄
– 背景:既存は, 3D推定のモデルがドメイン変化に対してロバストでなかったため, ドメ
インの変化分を⼩さくするため2Dのキーポイントに情報を抽象化してから, 3Dモデル
に渡していた
6
提案⼿法
• 画像の特徴量表現から3D回帰モデルにより3Dの潜在表現を推定. 以下の誤
差に対して最適化するように学習.
– 再構築誤差 Lreproj
– 識別器Dに関する誤差 Ladv
7
提案⼿法:3D Body Representation
• ⼈体:Skinned Multi-Person Linear (SMPL) で表現
– Shape β ∈ R10 :主成分空間の10次元で表現. (height, weight, body proportions等)
– Pose θ ∈ R3K: K=23関節の3D回転度で表現. (各関節の変形度等)
• カメラ:
– 回転 R∈R3x3, 平⾏移動 t∈R2、スケール s∈R
• ⇛ 全て合わせて
• Θが与えられた時, ⼈ X(θ, β) は で投影され
る.
8
提案⼿法:Iterative 3D Regression with Feedback
• Θを直接回帰で求めるのは難しいので, 残差計算し, Θを繰り返し更新する.
– 3D回帰モジュールの⼊⼒に, 画像特徴量Φと現在のパラメータΘtを受取り, 残差ΔΘtを
出⼒する
• 誤差
– 2Dの関節reprojection誤差
– 3Dのground truthデータがある時は, 以下の誤差関数を最⼩化
– Adversarial Loss(後述)により, 学習が⼈体3Dのマニフォールド上で進むように.
9
提案⼿法:Factorized Adversarial Prior
• SMPLパラメータの真偽を判定する識別器.
• Shape, Poseそれぞれに対して独⽴に識別器を⽤意.
– Poseはさらに分解:
• 各関節回転毎に識別器を⽤意. ⇛ 各関節の⾓度の制約を学習できる.
• 全ての関節を⼊⼒にした, 全体観をチェックするような識別器も学習. ⇛ 全ての関節の回転⾓
を組み合わせた分布も学習
– ⇛ 識別器の⼊⼒が低次元になるため, 学習が安定する.
• 関節の制約に関する事前知識は⼊れない(先⾏研究とは異なる)
– 本⼿法では, 識別器によりデータドリブンに制約を学習.
• エンコーダ E に関する⽬的関数:
• 各識別器 Di の⽬的関数:
10
実験結果
• 3Dスケルトン以上のことをしているが、いかんせんground truthが存在し
ないので、そのままの評価が難しい
• ⇛ 今回の評価軸
– (標準的な)3D関節位置推定タスク
– Body part segmentationタスク
• データセット:MS	COCO
• 青は2d-3d対あり、赤は対無し
11
実験結果:3D 関節位置推定
• データセット
– Human3.6M:研究環境で撮られた系の画像
– MPI-INF-3DHP:より多様なポーズ, ⼈の画像(in-the-wildにはまだ遠い)
• 評価指標
– Mean Per Joint Position Error (MPJPE)
– Reconstruction Error: 厳格なアライメントの後のMPJPE. グローバルミスアラインメ
ントを除いて, 再構成された3Dスケルトンの質を評価. (⼈体的にありえないけど、誤差
最⼩化するようなトリッキーな推定を排除したもの(と理解))
• Human 3.6M
12
実験結果:3D 関節位置推定
• データセット:Human3.6M
13
Protocol2: 同じsubjectの訓練/テスト
セットを使⽤し, テストは前からのカメ
ラに限定
今回同様3Djoints+SMPLまで出⼒する既存⼿
法. 2Dkeypointsを⼊⼒にもつのは異なる.
本⼿法が⼤差で勝った.
Protocol1: 5subjects上で訓練して, 異
なる2subjects上でテスト.
今回同様関節位置のみならずキネマティックツ
リーにおける関節⾓も出⼒する既存⼿法. ただ
し, 事前知識として各関節の全27⾃由度しか与
えていない(本⼿法はshape含む85⾃由度)
また, 既存⼿法ではスケールと⾻の⻑さの仮定
を与えている.
3Djoints+αで出⼒している⼿法には勝ってい
て, 3Djointsのみのモデルとも良い勝負.
参考: http://vision.imar.ro/human3.6m/description.php
実験結果:3D 関節位置推定
• MPJPEと視覚的なクオリティはあまり相関していないことがわかった.
14
実験結果:3D 関節位置推定
• データセット:MPI-INF-3DHP
– 室内、屋外で撮影されたもの. マーカを⽤いずにground truthを作成するので、
ground truthに⽐較的ノイズが含まれがち.
– 指標
• MPJPE
• Percentage of Correct Keypoints (PCK): threshold 150mm
• Area Under the Curve (AUC): PCKの閾値の範囲でのAUC
15
3Djoints専⽤の既存⼿法といい勝負.
After Rigid Alignmentでは上回る.
⇛ 既存⼿法では⼈体的な制約を無視し体歪ませて評価
値上げられるのに対して, 本⼿法のshape/poseの⽅が
より意味的に正しいということでは
実験結果:Human Body Segmentation
• 6つの⾝体部位+背景のセグメンテーション
• 今回はセグメンテーションラベルは学習には⽤いていない
16
セグメンテーションデータを最適化対象として学習時
に利⽤した既存⼿法と、いい勝負.
実験結果:Without paired 3D Supervision
• 関節位置推定, 3D再構築を⾏う既存⼿法では、3Dの教師データを必要とし
た.
• 本⼿法では、2D-to-3Dの対の教師データ無くとも、Adversarial Priorがあ
れば既存のタスク設定においても、精度が出ることを⽰した。
17
⾚が対データ無し
Adversarial priorが無いとぐちゃぐちゃに.(ただしそれでも2D誤差は低い)

Contenu connexe

Tendances

Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation SystemDeep Learning JP
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object DetectionDeep Learning JP
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)Shoki Miyagawa
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類Tsubasa Hirakawa
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robotsharmonylab
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose TrackingDeep Learning JP
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...Kimikazu Kato
 

Tendances (20)

ILSVRC2015 手法のメモ
ILSVRC2015 手法のメモILSVRC2015 手法のメモ
ILSVRC2015 手法のメモ
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
 

Similaire à End-to-end Recovery of Human Shape and Pose

Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)Deep Learning JP
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介nlab_utokyo
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar諒介 荒木
 
新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知るMasahiro Hidaka
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddingsharmonylab
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 

Similaire à End-to-end Recovery of Human Shape and Pose (14)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
画像処理入門
画像処理入門画像処理入門
画像処理入門
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 

Dernier

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Dernier (11)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

End-to-end Recovery of Human Shape and Pose

  • 1. End-to-end Recovery of Human Shape and Pose 東京⼤学 松尾研究室 ⼤野峻典
  • 2. 書誌情報 • https://arxiv.org/abs/1712.06584 • 著者:Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik – University of California Berkeley, MPI for Intelligent Systems Tubingen Germany, University of Maryland College Park • 公開⽇:18 Dec 2017 • プロジェクトページ:https://akanazawa.github.io/hmr/ • デモビデオ:https://www.youtube.com/watch?v=bmMV9aJKa-c 2
  • 3. アジェンダ • Human Mesh Recovery(HMR)タスクとは • ⽣成された3Dの真偽の識別器を導⼊した, end2endアーキテクチャ – 論⽂の主張・ポイント – 従来⼿法の問題点 – 提案⼿法 – 実験結果 3
  • 4. Human Mesh Recovery (HMR) タスクとは • 今回取り組むタスク • (⼊⼒)単⼀のRGB画像 → (出⼒)⼈体の完全な3Dメッシュ – こんな感じ • 難しさ – ⾃然な(in-the-wildな)画像の3D教師データ⽤意が⼤変(3D測定できるようにした特 殊な環境下で撮影されたものばかりで実⽤性△) – 単視点だと、同じ⾒え⽅でも3Dのあり⽅は異なるものなどある. – ⼈がどれくらいのスケールで写っているかわからない. 4
  • 5. 論⽂の主張・ポイント • GAN的発想を取り⼊れる事で, 画像と対になる⼈の3Dデータが無くても, それらしい⼈の3Dの⽣成ができるようになる. – 本物か/⽣成されたものか判断する識別器を学習することで, 独⽴した⼈の3Dデータ セットから, それらしい⼈の3Dデータに関して, 弱教師あり学習的に関節的に学ぶ • (2D関節位置推定を挟まずに,) end2endで3Dの姿勢推定を⾏うことで, 2D 画像にある情報を無駄にしない. • (スケルトンででなく) メッシュを出⼒. 情報量多い分応⽤範囲も広い. 5
  • 6. 従来⼿法の問題点 • 適⽤可能な画像のバリエーションの⼩ささ – 問題:既存の3D復元⼿法は、セットアップされた環境下で撮影された画像を対象にし ており、in-the-wildな画像へは適⽤できない. (ドメイン変化に対するロバスト性❌) • 2stage:2Dの関節位置推定 ⇛ この結果を⽤いて3D推定 – 問題:2D関節位置推定の精度依存, 2D情報の無駄 – 背景:既存は, 3D推定のモデルがドメイン変化に対してロバストでなかったため, ドメ インの変化分を⼩さくするため2Dのキーポイントに情報を抽象化してから, 3Dモデル に渡していた 6
  • 8. 提案⼿法:3D Body Representation • ⼈体:Skinned Multi-Person Linear (SMPL) で表現 – Shape β ∈ R10 :主成分空間の10次元で表現. (height, weight, body proportions等) – Pose θ ∈ R3K: K=23関節の3D回転度で表現. (各関節の変形度等) • カメラ: – 回転 R∈R3x3, 平⾏移動 t∈R2、スケール s∈R • ⇛ 全て合わせて • Θが与えられた時, ⼈ X(θ, β) は で投影され る. 8
  • 9. 提案⼿法:Iterative 3D Regression with Feedback • Θを直接回帰で求めるのは難しいので, 残差計算し, Θを繰り返し更新する. – 3D回帰モジュールの⼊⼒に, 画像特徴量Φと現在のパラメータΘtを受取り, 残差ΔΘtを 出⼒する • 誤差 – 2Dの関節reprojection誤差 – 3Dのground truthデータがある時は, 以下の誤差関数を最⼩化 – Adversarial Loss(後述)により, 学習が⼈体3Dのマニフォールド上で進むように. 9
  • 10. 提案⼿法:Factorized Adversarial Prior • SMPLパラメータの真偽を判定する識別器. • Shape, Poseそれぞれに対して独⽴に識別器を⽤意. – Poseはさらに分解: • 各関節回転毎に識別器を⽤意. ⇛ 各関節の⾓度の制約を学習できる. • 全ての関節を⼊⼒にした, 全体観をチェックするような識別器も学習. ⇛ 全ての関節の回転⾓ を組み合わせた分布も学習 – ⇛ 識別器の⼊⼒が低次元になるため, 学習が安定する. • 関節の制約に関する事前知識は⼊れない(先⾏研究とは異なる) – 本⼿法では, 識別器によりデータドリブンに制約を学習. • エンコーダ E に関する⽬的関数: • 各識別器 Di の⽬的関数: 10
  • 11. 実験結果 • 3Dスケルトン以上のことをしているが、いかんせんground truthが存在し ないので、そのままの評価が難しい • ⇛ 今回の評価軸 – (標準的な)3D関節位置推定タスク – Body part segmentationタスク • データセット:MS COCO • 青は2d-3d対あり、赤は対無し 11
  • 12. 実験結果:3D 関節位置推定 • データセット – Human3.6M:研究環境で撮られた系の画像 – MPI-INF-3DHP:より多様なポーズ, ⼈の画像(in-the-wildにはまだ遠い) • 評価指標 – Mean Per Joint Position Error (MPJPE) – Reconstruction Error: 厳格なアライメントの後のMPJPE. グローバルミスアラインメ ントを除いて, 再構成された3Dスケルトンの質を評価. (⼈体的にありえないけど、誤差 最⼩化するようなトリッキーな推定を排除したもの(と理解)) • Human 3.6M 12
  • 13. 実験結果:3D 関節位置推定 • データセット:Human3.6M 13 Protocol2: 同じsubjectの訓練/テスト セットを使⽤し, テストは前からのカメ ラに限定 今回同様3Djoints+SMPLまで出⼒する既存⼿ 法. 2Dkeypointsを⼊⼒にもつのは異なる. 本⼿法が⼤差で勝った. Protocol1: 5subjects上で訓練して, 異 なる2subjects上でテスト. 今回同様関節位置のみならずキネマティックツ リーにおける関節⾓も出⼒する既存⼿法. ただ し, 事前知識として各関節の全27⾃由度しか与 えていない(本⼿法はshape含む85⾃由度) また, 既存⼿法ではスケールと⾻の⻑さの仮定 を与えている. 3Djoints+αで出⼒している⼿法には勝ってい て, 3Djointsのみのモデルとも良い勝負. 参考: http://vision.imar.ro/human3.6m/description.php
  • 15. 実験結果:3D 関節位置推定 • データセット:MPI-INF-3DHP – 室内、屋外で撮影されたもの. マーカを⽤いずにground truthを作成するので、 ground truthに⽐較的ノイズが含まれがち. – 指標 • MPJPE • Percentage of Correct Keypoints (PCK): threshold 150mm • Area Under the Curve (AUC): PCKの閾値の範囲でのAUC 15 3Djoints専⽤の既存⼿法といい勝負. After Rigid Alignmentでは上回る. ⇛ 既存⼿法では⼈体的な制約を無視し体歪ませて評価 値上げられるのに対して, 本⼿法のshape/poseの⽅が より意味的に正しいということでは
  • 16. 実験結果:Human Body Segmentation • 6つの⾝体部位+背景のセグメンテーション • 今回はセグメンテーションラベルは学習には⽤いていない 16 セグメンテーションデータを最適化対象として学習時 に利⽤した既存⼿法と、いい勝負.
  • 17. 実験結果:Without paired 3D Supervision • 関節位置推定, 3D再構築を⾏う既存⼿法では、3Dの教師データを必要とし た. • 本⼿法では、2D-to-3Dの対の教師データ無くとも、Adversarial Priorがあ れば既存のタスク設定においても、精度が出ることを⽰した。 17 ⾚が対データ無し Adversarial priorが無いとぐちゃぐちゃに.(ただしそれでも2D誤差は低い)