SlideShare une entreprise Scribd logo
1  sur  31
DEEP LEARNING JP
[DL Seminar]
3D Human Pose Estimation @ CVPR’19 / ICCV’19
Hiromi Nakagawa, Matsuo Lab
https://deeplearning.jp
• CVPR’19 / ICCV’19 にAcceptされた3D Human Pose Estimationに関する論文7本を俯瞰
• 最も多く見られたのは、3D Poseのアノテーションコストが高いという課題感に対する
{Un/Self/Weakly/Semi}-Supervised Learningによるデータ(ラベル)効率改善の研究
– Multi-viewでの3D Poseの一貫性
– 2D↔3DのProjectionを活用した自己教師あり学習
– 敵対的誤差によるラベルなし表現の学習
• その他、Multi-person認識における深度推定問題や動画の時系列情報の活用などの方向性も見られた
• 各手法に共通する課題・背景やアプローチ、それぞれの手法で異なる点、注目ポイントなどを整理した
• note書きました↓
【CVPR‘19 / ICCV’19】3D Human Pose Estimationの最新研究動向まとめ(https://note.mu/hirominakagawa/n/nbc226d7d1bfb)
2
Overview
3
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
Input Target View
4
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 単一視点の画像から3D Poseを推定するアプローチ
• 2D→3Dの推定と3D→2Dの射影による相互変換を用いた学習テクニックの提案
• 2D Pose:比較的容易に・精度高く得られる
• 3D Pose:カメラパラメータを使うことで2Dへの変換は容易
Input Target View
• ①2D→3D変換の学習 と ②3D+カメラパラメータによる2Dへの射影 をうまく活用して3D Poseを学習
• 敵対的学習によって中間の3D表現の質を改善
5
RepNet: Weakly Supervised Training of an Adversarial Reprojection Network
for 3D Human Pose Estimation
①2D Poseから3D PoseとCamera Poseを生成
②3D PoseとCamera Poseから2D Poseを再構成して誤差を最小化
3D PoseはWGAN-GPで敵対的に学習。
人体構造を明示的に考慮する特徴のKCS
(Kinematic Chain Space)も加える
1
2
• 完全な教師ありには勝てないが、弱教師あり(WS)ではSoTA
• KCS + Discriminatorによる3D Poseの学習の効果が確認された
6
RepNet: Weakly Supervised Training of an Adversarial Reprojection Network
for 3D Human Pose Estimation
2
2
• [Wandt+ CVPR’19] RepNetと同様に、2D Poseから3D PoseとCamera Poseを推定→2Dに再射影して誤差
を最小化するように学習を行う
7
In the Wild Human Pose Estimation
Using Explicit 2D Features and Intermediate 3D Representations
違い①
2D Poseの情報と3D Poseに
関連する深さ情報(d)を明示的に分ける
→入力画像の見た目の変化などにより頑健
違い②
3D Poseは正解ラベルが存在する場合には
教師ありで学習(Boneの長さも考慮)
1
2
• 実験結果
8
In the Wild Human Pose Estimation
Using Explicit 2D Features and Intermediate 3D Representations
2
2
MPI-INF-3DHPではSoTA
Human3.6MではSoTAではないが善戦
(In-the-Wildなデータセットでこそ強みを発揮するとの主張)
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
9
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
1
4
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
10
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
①Lifting Networkで
2D Poseを3D Poseに変換
②ランダムな回転Rを適用 ③2Dに射影
④Lifting Networkで
2D Poseを3D Poseに変換
⑤逆回転R-1を適用⑤2Dに射影
2
4
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
11
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
入力の2D Poseと
再構成した2D Poseの誤差
射影前の3D Poseと
射影後の3D Poseの誤差
2D Poseの敵対的誤差
(動画なら時間的一貫性も反映可能)
3
4
• 教師なしアプローチのSoTAを更新
• Ablation Study(右)
– 敵対的誤差(Adv)、2D/3Dでの自己教師あり学習(SS)、ドメイン適応(DA)、Discriminatorへの時間情報の入力(TD)
– 全部入れることでベストの性能
12
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
4
4
13
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 視点の相互変換や、カメラ幾何を用いた3Dラベルの作成を活用し、
複数視点(Multi-view)の画像から3D Pose推定のための表現を学習
Input Target View
• Multi-viewの画像から3D Pose Estimationに有用な潜在表現を学習する
– Pose空間で潜在表現を学習することで、画像空間で直接学習する[Rhodin+ ECCV’18]よりロバスト
14
Weakly-Supervised Discovery of Geometry-Aware Representation
for 3D Human Pose Estimation
①各視点の画像から
2D Poseを生成
③反対の視点の2D Poseを
生成→誤差を最小化
④表現の一貫性が担保されるよう
潜在表現の誤差を最小化
カメラの外部パラメータ(視点間の
位置関係)は既知である前提
②視点間の位置関係に基づく
回転行列を潜在表現に適用
1
2
• 学習した潜在表現を既存のSoTAモデルに組み込む(特徴ベクトルを足す)ことで、精度が改善
15
Weakly-Supervised Discovery of Geometry-Aware Representation
for 3D Human Pose Estimation
2
2
• Multi-viewの画像からエピポーラ幾何を用いて3D Poseを学習するEpipolarPoseを提案
• 2つのPose Estimation Network(Branch)を用意
– Upper Branch:単一画像から3D Poseを推定
– Lower Branch:複数画像からそれぞれ2D Poseを出力した後、エピポーラ幾何を用いて3D Poseを生成
• Lower Branch+エピポーラ幾何で3D Poseの正解ラベルを作成してUpper Branchの教師ラベルと
して学習させることで、3Dの正解ラベルなしに単一画像から3D Poseを推定できるモデルを学習可能
16
Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
エピポーラ幾何を用いる際に必要な
カメラの位置関係などの
外部パラメータがわからない場合でも、
データから推定・キャリブレーション
できるテクニックも提案
1
2
• 教師ありのSoTAには勝てないが、善戦(左)
• 弱教師あり/半教師ありではSoTA(右)
17
Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
2
2
18
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 複数人(Multi-Person)の3D Poseを推定する際に課題となる
人物位置の絶対的な位置関係(深度)を推定するためのテクニックを提案
Input Target View
• 複数人(Multi-Person)の3D Pose Estimationを行う手法の提案
• 一般的な3D Pose Estimationのモデルは、骨盤など人物の空間位置の基準点となる関節(root)を
決めておき、その基準点からの相対的な位置関係で各関節の座標を表現
• 複数人の姿勢を推定するには、各人が空間上のどこにいるのか=rootの絶対座標も推定する必要がある
19
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
1
6
• 3つのネットワークからなるパイプラインを提案
1. 画像内から人物を検出してクロップする DetectNet
2. 人物画像からrootの絶対座標を推定する RootNet
3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet
20
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
2
6
• 3つのネットワークからなるパイプラインを提案
1. 画像内から人物を検出してクロップする DetectNet → Mask R-CNN [He+ ICCV’18]
2. 人物画像からrootの絶対座標を推定する RootNet
3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet → [Sun+ ECCV’18]
21
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
3
6
• RootNet:カメラ座標系における人物のroot 𝑅 = 𝑥 𝑅, 𝑦 𝑅, 𝑍 𝑅 を推定する
• 2D座標の 𝑥 𝑅, 𝑦 𝑅 は簡単に推定できるが3Dの深さ( 𝑍 𝑅 )は容易には求まらない
• 画像上の面積(pixel2)と実空間上の面積(mm2)の比率とカメラパラメータから深さ 𝑑 を近似
• 人物領域のbboxが実空間において 2,000mm x 2,000mm(x アスペクト比)であると仮定
• この仮定に基づいて計算した距離尺度 𝑘 と実際の距離は相関する(右下)
22
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
4
6
w[pix]
h[pix]
2,000mm
=
= 2,000[mm] x w/h
𝛼:焦点距離
𝐴 𝑟𝑒𝑎𝑙
𝐴 𝑟𝑒𝑎𝑙
𝐴𝑖𝑚𝑔
𝐴𝑖𝑚𝑔
• 課題:実際の画像では
(a) 異なるbboxのサイズだが、同じ距離にいる
(b) 同じbboxのサイズだが、異なる距離にいる
場合などがあり、この仮定のみではうまくいかない
• 画像の特徴も使い、補正係数γを算出して 𝑘 を補正、最終的な絶対深度を出力する
23
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
5
6
• root位置の正解を使わないアプローチでは大きく精度改善しSoTA(下)
• root位置の正解を使うアプローチの中でも、SoTAではないものの遜色のない精度を発揮(上)
24
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
6
6
25
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 動画の時系列情報を効率的に活用することで、単一画像のみでは解決しきれない
曖昧性を解消し、時間的に一貫性のある形で3D Poseを推定
Input Target View
• 動画の時系列情報を活用して3D Pose Estimationを行う手法
• 2Dと3Dの姿勢は一意に対応するとは限らないという根本的な曖昧性(ambiguity)の問題がある
→動画で観測できる連続的な人物の動きを活用することで曖昧性を解消
• Dilated Convolutionを用いたFully-Convolutionalなモデル(not RNN)で計算効率や学習効率を改善
• Back-Projectionによってラベルなしデータを効果的に利用する半教師あり学習も提案
26
3D human pose estimation in video
with temporal convolutions and semi-supervised training
1
3
• Human3.6MのデータセットにおいてSoTA
• 複数フレームを用いることによって速度の誤差も大きく減少
27
3D human pose estimation in video
with temporal convolutions and semi-supervised training
2
3
• 教師あり学習だけでも強力だが、半教師あり学習によって特に少データ時でも高い精度を発揮
– – – – 提案手法(教師あり)
–––––– 提案手法(半教師あり)
28
3D human pose estimation in video
with temporal convolutions and semi-supervised training
エラー率
データ数
3
3
29
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
Input Target View
• CVPR’19/ICCV’19にAcceptされた3D Human Pose Estimationに関する7本の論文をまとめた
• 最も多いトピックとしては、{Un/Self/Weakly/Semi}-Supervised Learningによるデータ効率の改善
– Multi-viewでの3D Poseの一貫性、2D↔3DのProjectionを活用した自己教師あり学習、敵対的誤差によるラベルなし表現の学習
– 3D Poseはアノテーションが大変という課題感に対応
• 論文の目的・課題感やそもそもの実験設定が異なるものが多いため、単純な精度比較での優劣付けは難しい
– 提案手法単独ではなく、過去のSoTAモデルと組み合わせて使う前提のもの
– 部分的にGround Truthの情報を使うもの
– 異なるデータ分割や評価プロトコルを使うもの
• 今後の方向性としては、データ効率改善系は引き続き出てきそうだが、In-the-Wildなデータ・独自データでの学習の
ニーズを考えると、画像の枚数(視点数)やカメラパラメータに対する事前情報の制約が緩和された手法が好まれそう
– Human3.6Mのようなリッチなデータセットのみで学習できる手法は、他に転移できるくらいロバストであれば、価値がある
• 深度推定問題[Moon+ ICCV’19]や動画情報の効率的な活用[Pavllo+ CVPR’19]も、基本的な要件・評価指標など
として引き続き出てきそう
30
まとめ
• [Wandt+ CVPR'19] Wandt, Bastian, and Bodo Rosenhahn. "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation."
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
• [Habibie+ CVPR'19] Habibie, Ikhsanul, et al. "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2019.
• [Chen.C+ CVPR'19] Chen, Ching-Hang, et al. "Unsupervised 3D Pose Estimation with Geometric Self-Supervision." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2019.
• [Chen.X+ CVPR'19] Chen, Xipeng, et al. "Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2019.
• [Kocabas+ CVPR'19] Kocabas, Muhammed, Salih Karagoz, and Emre Akbas. "Self-supervised learning of 3d human pose using multi-view geometry." arXiv preprint
arXiv:1903.02330 (2019).
• [Pavllo+ CVPR'19] Pavllo, Dario, et al. "3D human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2019.
• [Moon+ ICCV'19] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single
RGB Image." arXiv preprint arXiv:1907.11346 (2019).
• [Rhodin+ ECCV’18] Rhodin, Helge, Mathieu Salzmann, and Pascal Fua. "Unsupervised geometry-aware representation for 3d human pose estimation." Proceedings of the
European Conference on Computer Vision (ECCV). 2018.
• [He+ ICCV’17] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.
• [Sun+ ECCV’18] Sun, Xiao, et al. "Integral human pose regression." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
31
参考文献

Contenu connexe

Tendances

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みTakeshi Suzuki
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific FeaturesDeep Learning JP
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

Tendances (20)

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Point net
Point netPoint net
Point net
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

Similaire à [DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018Deep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-Xcvpaper. challenge
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシングSSII
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~ProjectAsura
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoishii yasunori
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには? 【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには? historia_Inc
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from ImagesDeep Learning JP
 
3dc guide j_20100420
3dc guide j_201004203dc guide j_20100420
3dc guide j_20100420syncoptic
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3sumisumith
 

Similaire à [DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19 (20)

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
3d guidelines
3d guidelines3d guidelines
3d guidelines
 
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには? 【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images
 
3dc guide j_20100420
3dc guide j_201004203dc guide j_20100420
3dc guide j_20100420
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Dernier (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

  • 1. DEEP LEARNING JP [DL Seminar] 3D Human Pose Estimation @ CVPR’19 / ICCV’19 Hiromi Nakagawa, Matsuo Lab https://deeplearning.jp
  • 2. • CVPR’19 / ICCV’19 にAcceptされた3D Human Pose Estimationに関する論文7本を俯瞰 • 最も多く見られたのは、3D Poseのアノテーションコストが高いという課題感に対する {Un/Self/Weakly/Semi}-Supervised Learningによるデータ(ラベル)効率改善の研究 – Multi-viewでの3D Poseの一貫性 – 2D↔3DのProjectionを活用した自己教師あり学習 – 敵対的誤差によるラベルなし表現の学習 • その他、Multi-person認識における深度推定問題や動画の時系列情報の活用などの方向性も見られた • 各手法に共通する課題・背景やアプローチ、それぞれの手法で異なる点、注目ポイントなどを整理した • note書きました↓ 【CVPR‘19 / ICCV’19】3D Human Pose Estimationの最新研究動向まとめ(https://note.mu/hirominakagawa/n/nbc226d7d1bfb) 2 Overview
  • 3. 3 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View Input Target View
  • 4. 4 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 単一視点の画像から3D Poseを推定するアプローチ • 2D→3Dの推定と3D→2Dの射影による相互変換を用いた学習テクニックの提案 • 2D Pose:比較的容易に・精度高く得られる • 3D Pose:カメラパラメータを使うことで2Dへの変換は容易 Input Target View
  • 5. • ①2D→3D変換の学習 と ②3D+カメラパラメータによる2Dへの射影 をうまく活用して3D Poseを学習 • 敵対的学習によって中間の3D表現の質を改善 5 RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation ①2D Poseから3D PoseとCamera Poseを生成 ②3D PoseとCamera Poseから2D Poseを再構成して誤差を最小化 3D PoseはWGAN-GPで敵対的に学習。 人体構造を明示的に考慮する特徴のKCS (Kinematic Chain Space)も加える 1 2
  • 6. • 完全な教師ありには勝てないが、弱教師あり(WS)ではSoTA • KCS + Discriminatorによる3D Poseの学習の効果が確認された 6 RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation 2 2
  • 7. • [Wandt+ CVPR’19] RepNetと同様に、2D Poseから3D PoseとCamera Poseを推定→2Dに再射影して誤差 を最小化するように学習を行う 7 In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations 違い① 2D Poseの情報と3D Poseに 関連する深さ情報(d)を明示的に分ける →入力画像の見た目の変化などにより頑健 違い② 3D Poseは正解ラベルが存在する場合には 教師ありで学習(Boneの長さも考慮) 1 2
  • 8. • 実験結果 8 In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations 2 2 MPI-INF-3DHPではSoTA Human3.6MではSoTAではないが善戦 (In-the-Wildなデータセットでこそ強みを発揮するとの主張)
  • 10. • 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習 10 Unsupervised 3D Pose Estimation with Geometric Self-Supervision ①Lifting Networkで 2D Poseを3D Poseに変換 ②ランダムな回転Rを適用 ③2Dに射影 ④Lifting Networkで 2D Poseを3D Poseに変換 ⑤逆回転R-1を適用⑤2Dに射影 2 4
  • 11. • 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習 11 Unsupervised 3D Pose Estimation with Geometric Self-Supervision 入力の2D Poseと 再構成した2D Poseの誤差 射影前の3D Poseと 射影後の3D Poseの誤差 2D Poseの敵対的誤差 (動画なら時間的一貫性も反映可能) 3 4
  • 12. • 教師なしアプローチのSoTAを更新 • Ablation Study(右) – 敵対的誤差(Adv)、2D/3Dでの自己教師あり学習(SS)、ドメイン適応(DA)、Discriminatorへの時間情報の入力(TD) – 全部入れることでベストの性能 12 Unsupervised 3D Pose Estimation with Geometric Self-Supervision 4 4
  • 13. 13 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 視点の相互変換や、カメラ幾何を用いた3Dラベルの作成を活用し、 複数視点(Multi-view)の画像から3D Pose推定のための表現を学習 Input Target View
  • 14. • Multi-viewの画像から3D Pose Estimationに有用な潜在表現を学習する – Pose空間で潜在表現を学習することで、画像空間で直接学習する[Rhodin+ ECCV’18]よりロバスト 14 Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation ①各視点の画像から 2D Poseを生成 ③反対の視点の2D Poseを 生成→誤差を最小化 ④表現の一貫性が担保されるよう 潜在表現の誤差を最小化 カメラの外部パラメータ(視点間の 位置関係)は既知である前提 ②視点間の位置関係に基づく 回転行列を潜在表現に適用 1 2
  • 16. • Multi-viewの画像からエピポーラ幾何を用いて3D Poseを学習するEpipolarPoseを提案 • 2つのPose Estimation Network(Branch)を用意 – Upper Branch:単一画像から3D Poseを推定 – Lower Branch:複数画像からそれぞれ2D Poseを出力した後、エピポーラ幾何を用いて3D Poseを生成 • Lower Branch+エピポーラ幾何で3D Poseの正解ラベルを作成してUpper Branchの教師ラベルと して学習させることで、3Dの正解ラベルなしに単一画像から3D Poseを推定できるモデルを学習可能 16 Self-Supervised Learning of 3D Human Pose using Multi-view Geometry エピポーラ幾何を用いる際に必要な カメラの位置関係などの 外部パラメータがわからない場合でも、 データから推定・キャリブレーション できるテクニックも提案 1 2
  • 18. 18 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 複数人(Multi-Person)の3D Poseを推定する際に課題となる 人物位置の絶対的な位置関係(深度)を推定するためのテクニックを提案 Input Target View
  • 19. • 複数人(Multi-Person)の3D Pose Estimationを行う手法の提案 • 一般的な3D Pose Estimationのモデルは、骨盤など人物の空間位置の基準点となる関節(root)を 決めておき、その基準点からの相対的な位置関係で各関節の座標を表現 • 複数人の姿勢を推定するには、各人が空間上のどこにいるのか=rootの絶対座標も推定する必要がある 19 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 1 6
  • 20. • 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet 20 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 2 6
  • 21. • 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet → Mask R-CNN [He+ ICCV’18] 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet → [Sun+ ECCV’18] 21 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 3 6
  • 22. • RootNet:カメラ座標系における人物のroot 𝑅 = 𝑥 𝑅, 𝑦 𝑅, 𝑍 𝑅 を推定する • 2D座標の 𝑥 𝑅, 𝑦 𝑅 は簡単に推定できるが3Dの深さ( 𝑍 𝑅 )は容易には求まらない • 画像上の面積(pixel2)と実空間上の面積(mm2)の比率とカメラパラメータから深さ 𝑑 を近似 • 人物領域のbboxが実空間において 2,000mm x 2,000mm(x アスペクト比)であると仮定 • この仮定に基づいて計算した距離尺度 𝑘 と実際の距離は相関する(右下) 22 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 4 6 w[pix] h[pix] 2,000mm = = 2,000[mm] x w/h 𝛼:焦点距離 𝐴 𝑟𝑒𝑎𝑙 𝐴 𝑟𝑒𝑎𝑙 𝐴𝑖𝑚𝑔 𝐴𝑖𝑚𝑔
  • 23. • 課題:実際の画像では (a) 異なるbboxのサイズだが、同じ距離にいる (b) 同じbboxのサイズだが、異なる距離にいる 場合などがあり、この仮定のみではうまくいかない • 画像の特徴も使い、補正係数γを算出して 𝑘 を補正、最終的な絶対深度を出力する 23 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 5 6
  • 25. 25 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 動画の時系列情報を効率的に活用することで、単一画像のみでは解決しきれない 曖昧性を解消し、時間的に一貫性のある形で3D Poseを推定 Input Target View
  • 26. • 動画の時系列情報を活用して3D Pose Estimationを行う手法 • 2Dと3Dの姿勢は一意に対応するとは限らないという根本的な曖昧性(ambiguity)の問題がある →動画で観測できる連続的な人物の動きを活用することで曖昧性を解消 • Dilated Convolutionを用いたFully-Convolutionalなモデル(not RNN)で計算効率や学習効率を改善 • Back-Projectionによってラベルなしデータを効果的に利用する半教師あり学習も提案 26 3D human pose estimation in video with temporal convolutions and semi-supervised training 1 3
  • 28. • 教師あり学習だけでも強力だが、半教師あり学習によって特に少データ時でも高い精度を発揮 – – – – 提案手法(教師あり) –––––– 提案手法(半教師あり) 28 3D human pose estimation in video with temporal convolutions and semi-supervised training エラー率 データ数 3 3
  • 29. 29 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View Input Target View
  • 30. • CVPR’19/ICCV’19にAcceptされた3D Human Pose Estimationに関する7本の論文をまとめた • 最も多いトピックとしては、{Un/Self/Weakly/Semi}-Supervised Learningによるデータ効率の改善 – Multi-viewでの3D Poseの一貫性、2D↔3DのProjectionを活用した自己教師あり学習、敵対的誤差によるラベルなし表現の学習 – 3D Poseはアノテーションが大変という課題感に対応 • 論文の目的・課題感やそもそもの実験設定が異なるものが多いため、単純な精度比較での優劣付けは難しい – 提案手法単独ではなく、過去のSoTAモデルと組み合わせて使う前提のもの – 部分的にGround Truthの情報を使うもの – 異なるデータ分割や評価プロトコルを使うもの • 今後の方向性としては、データ効率改善系は引き続き出てきそうだが、In-the-Wildなデータ・独自データでの学習の ニーズを考えると、画像の枚数(視点数)やカメラパラメータに対する事前情報の制約が緩和された手法が好まれそう – Human3.6Mのようなリッチなデータセットのみで学習できる手法は、他に転移できるくらいロバストであれば、価値がある • 深度推定問題[Moon+ ICCV’19]や動画情報の効率的な活用[Pavllo+ CVPR’19]も、基本的な要件・評価指標など として引き続き出てきそう 30 まとめ
  • 31. • [Wandt+ CVPR'19] Wandt, Bastian, and Bodo Rosenhahn. "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Habibie+ CVPR'19] Habibie, Ikhsanul, et al. "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.C+ CVPR'19] Chen, Ching-Hang, et al. "Unsupervised 3D Pose Estimation with Geometric Self-Supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.X+ CVPR'19] Chen, Xipeng, et al. "Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Kocabas+ CVPR'19] Kocabas, Muhammed, Salih Karagoz, and Emre Akbas. "Self-supervised learning of 3d human pose using multi-view geometry." arXiv preprint arXiv:1903.02330 (2019). • [Pavllo+ CVPR'19] Pavllo, Dario, et al. "3D human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Moon+ ICCV'19] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image." arXiv preprint arXiv:1907.11346 (2019). • [Rhodin+ ECCV’18] Rhodin, Helge, Mathieu Salzmann, and Pascal Fua. "Unsupervised geometry-aware representation for 3d human pose estimation." Proceedings of the European Conference on Computer Vision (ECCV). 2018. • [He+ ICCV’17] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017. • [Sun+ ECCV’18] Sun, Xiao, et al. "Integral human pose regression." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31 参考文献