SlideShare a Scribd company logo
1 of 43
Download to read offline
Learning Less is More - 6D
Camera Localization via 3D
Surface Regression
CVPR 2018
2019-01-04
Younggun Cho
LessMore
본격적으로 알아보기에 앞서 …
Visual Localization을 아시나요??
2
Q. 아래 용어 중 다른 방법을 지칭하는 말은?
1. Visual Localization
2. Image-based Localization
3. Camera Relocalization
4. Image Retrieval
5. Image-based pose estimation
6. Camera pose regression
3[1] Piasco, Nathan, et al. "A survey on Visual-Based Localization: On the benefit of heterogeneous data." Pattern Recognition 74 (2018): 90-109.
Visual Localization이란?
4
• 입력 (query) image에 대해
카메라의 pose를 구하거나,
query image와 유사한 image
들을 찾는 과정
• Feature-based method
vs.
Learning-based method
Learning based Method
Feature-based Method
Visual Localization 목적에 따른 구분 [1]
• Indirect method
• Image Retrieval
• 가지고 있는 이미지들 중
Query와 가장 유사한 이미지들을
찾는 것
5
• Direct method
• 6D pose regression
• Query의 Map 상에서의 6D pose를
구하는 것
[1] Piasco, Nathan, et al. "A survey on Visual-Based Localization: On the benefit of heterogeneous data." Pattern Recognition 74 (2018): 90-109.
근데 사실 image
retrieval 후 pose
estimation
하기도 함
오늘의 주제
그렇다면 Pose regression 방법들은 어떤 것이 있을까?
6
Pose regression 삼국지
7
Check slide notes for references
Learning Pose Directly
: 네트워크를 이용해
글로벌 포즈를 바로 학습
Sparse Feature Based
: 2D-3D correspondence를
구한 후 PnP method로
Pose estimation
Learning Pose with 3D map points
: Scene coordinates (3D map points)과
글로벌 포즈를 학습 (또는 유추)
Sparse Feature-based Pose Regression
8
Slide from Eric Brachmann in ECCV 2018 Workshop
Learning-based Camera Pose Regression
• 학습 기반 영상의 글로벌 포즈 추정 (Naïve)
9
Slide from Eric Brachmann in ECCV 2018 WorkshopTraining image with
global ground-truth poses
Scene Coordinate Regression
10
3D Points in a map
Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." IEEE Conference on Computer Vision and Pattern Recognition. 2013.
Pose regression 삼국지
11
PoseNet
Bayesian
PoseNet
Geometric
PoseNet
PoseLSTM
PoseHourglass
MapNet+
VLocNet+
Regression Forest
Active Search
Hybrid
Pose Estim.
Check slide notes for references
DSAC
LessMore (DSAC+)
: VO, IMU, GPS
: Multi-task
SIFT + PnP
: Efficient
: Data Association
End-to-end Learning w/ RANSAC, RGBD to RGB
: 2D-2D, 2D-3D
Learning Pose Directly
Sparse Feature Based
Learning Pose
with 3D map points
Pose regression 삼국지
12
PoseNet (‘15)
Bayesian
PoseNet (‘15)
Geometric
PoseNet (‘17)
PoseLSTM (‘17)
PoseHourglass
(‘17)
MapNet+ (’18)
VLocNet+ (`18)
Regression Forest (’13)
Active Search (‘12)
Hybrid
Pose Estim. (‘18)
Check slide notes for references
DSAC (‘17)
LessMore (‘18)
Uncertainty & Loss 개선
Network
개선
: VO, IMU, GPS
: Multi-task
SIFT + PnP (‘81)
: Efficient
: Data Association
End-to-end Learning w/ RANSAC, RGBD to RGB
: 2D-2D, 2D-3D
Pose regression 삼국지
13
PoseNet (‘15)
Bayesian
PoseNet (‘15)
Geometric
PoseNet (‘17)
PoseLSTM (‘17)
PoseHourglass
(‘17)
MapNet+ (’18)
VLocNet+ (`18)
Regression Forest (’13)
Active Search (‘12)
Hybrid
Pose Estim. (‘18)
Check slide notes for references
DSAC (‘17)
LessMore (‘18)
Uncertainty & Loss
Network
: VO, IMU, GPS
: Multi-task
SIFT + PnP (‘81)
: Efficient
: Data Association
End-to-end Learning w/ RANSAC, RGBD to RGB
: 2D-2D, 2D-3D
Global Pose를
바로 학습해보자!
Scene Coor. 과
같이 Pose를
학습하면 더 좋아
포즈 추정의
고인물
(Feature 기반)
현재
SOTA
Pose regression 삼국지
14
PoseNet (‘15)
Bayesian
PoseNet (‘15)
Geometric
PoseNet (‘17)
PoseLSTM (‘17)
PoseHourglass
(‘17)
MapNet+ (’18)
VLocNet+ (`18)
Regression Forest (’13)
Active Search (‘12)
Hybrid
Pose Estim. (‘18)
Check slide notes for references
DSAC (‘17)
LessMore (‘18)
: VO, IMU, GPS
: Multi-task
SIFT + PnP (‘81)
: Efficient
: Data Association
: 2D-2D, 2D-3D
오늘의 주인공
Scene Coordinate Regression
15
3D Points in a map
Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." IEEE Conference on Computer Vision and Pattern Recognition. 2013.
이걸 러닝으로 풀겠다
(RGB 입력으로)
그리고 RANSAC? (Random Sample Consensus)
16
• 모르시면 3분 안에
Install 해드려요
• RANSAC Song
자매품
Fundamental Matrix Song
(https://www.youtube.com/watc
h?v=DgGV3l82NTk)
RANSAC!
17
본격적으로 LessMore를 알아볼까요
18
우선 Scene Coordinate Estimation
• Scene Coordinate란?
• Global 3D points
• Scene Coordinate Estimation
=
Global 3D Points Estimation
19
Overview
20
Slide from Eric Brachmann in ECCV 2018 Workshop
학습하는 부분
고정 파라미터 지만
학습을 위해 미분가능하게 구성
Overview
21
1. CNN
: Trainable
2. PnP
: Differentiable
3. Scoring
: Differentiable?
4. Selection
: Differentiable?
Slide from Eric Brachmann in ECCV 2018 Workshop
순서대로 정리해서 살펴보면
1. 입력 영상에서 Patch-wise로 Scene Coordinate Estimation
• Fully Convolution Network로 입력 Patch에 대해 출력은
해당 Patch의 center의 global 3D position
2. 2D image에 대해서 3D global position을 (우선) 구했기 때문에, 여기서 4개의
matching pair를 random 하게 뽑아서 pose estimation을 수행 (n번 수행)
• 4개의 2D-3D matching pair가 있으면 unique pose를 구할 수 있다
• 4개의 matching pair를 n번 랜덤하게 뽑아서 n개의 pose hypothesis를 구함
3. Scene Coordinate를 image에 reprojection해서 에러를 구하고, 어떤 pose
hypothesis가 좋은 예측인지 scoring
4. 가장 좋은 hypothesis를 선택하고, inlier set을 구해서 refinement. 그리고 Global
True pose와 비교해서 학습
22
1. Scene Coordinate Regression
• DSAC: Distance to GT scene coordinates
23
• LessMore: Reprojection Error
GT pose h*를 이용해 scene coordinate를 image plane으로 projection 했을 때 pixel error
y: scene coordinates
y*: true scene coordinates
h*: true pose
p: pixels
True global points를 알고 있으므로,
Estimation과 GT의 Distance를 Loss로 사용
True global pose를 알고 있으므로,
Estimation을 image plane으로
projection, pixel distance를 Loss로 사용
1. Scene Coordinate Regression
• DSAC: Distance to GT scene coordinates
24
• LessMore: Reprojection Error
y: scene coordinates
y*: true scene coordinates
h*: true pose
p: pixels
True global points를 알고 있으므로,
Estimation과 GT의 Distance를 Loss로 사용
True global pose를 알고 있으므로,
Estimation을 image plane으로
projection, pixel distance를 Loss로 사용
True global points를 몰라도
학습할 수 있다 (Unsupervised)
1. Scene Coordinate Regression w/o GT
• Key
• True Scene coordinates,
즉, RGBD 입력이나
Rendering truth가 없어도
학습이 가능하다
• Predefined depth, GT Pose를
이용해서,
Plane 형태의 initial 가정
• 만약 GT scene coordinate가
있다면 그대로 사용 가능
25
2. Pose Hypothesis Estimation
• 4개의 2D-3D correspondences -> one unique pose
• PnP (Perspective-n-Point)
• solvePnP in OpenCV!
• N개의 pose hypotheses 생성
26
https://icwww.epfl.ch/~lepetit/papers/lepetit_ijcv08.pdf
2. Pose Hypotheses Estimation
• 각 Hypothesis에 대해 reprojection error 계산
• C: calibration matrix
• y: scene coordinate
• h: pose hypothesis
• p: corresponding pixel
• Reprojection errors
27
https://icwww.epfl.ch/~lepetit/papers/lepetit_ijcv08.pdf
3. Pose Hypothesis Scoring
28Slide from Eric Brachmann in ECCV 2018 Workshop
Sigmoid function을 이용한 soft counting
Score learning 보다 좋은 이유
1. Learning은 global error를 학습하므로 generalize 성능 떨어짐
2. 강한 스코어를 가지는 hypothesis로 치우치게 된다 (overfit)
• Reprojection error를 이용해서 각 hypothesis를 scoring 해야한다
Soft Counting이
Generality가
훨씬 좋다
4. Hypothesis Selection
29
가장 좋은 hypothesis는
어떻게 선택하나?
• Probabilistic Selection
• Softmax distribution with scaling factor α (α에 대한 학습은 다음페이지)
• Policy gradient 기반의 학습방법
• RL에서 expected reward를 최대화 하는 policy를 구하는 것 처럼,
여기선 expected loss를 minimize하는 hypothesis를 구하는 것 (이를 위해
softmax를 이용해서 확률화)
4. Hypothesis Selection
30
4. Hypothesis Selection – Entropy Control
• Inlier score는 scene의 종류에 따라 달라질 수 있기 때문에, 여러
이미지에서 고르게 학습이 되려면, inlier score의 magnitude를
적절하게 유지해주는 것이 좋다!
• First few iteration에서 target entropy를 설정하고, target entropy와
유사하게 scoring probability가 나오도록 α 를 학습
31
5. End-to-end Learning
• Pose refinement process를 미분 가능하게 approximation
• Pose refinement (R) 만 미분가능하면 이제 모든 process가 미분가능! (학습가능)
32
Reproj error of inliers
Approximated gradient
for training
5. End-to-end Learning
• Learning the pipeline (Policy Gradient)
• Policy Gradient에서 최적의 Policy를 학습 = 최적의 pose hypothesis를 학습
• Policy Gradient에서 Maximum reward로 학습 = Minimum pose loss로 학습
33
z
Derivative of the selection probability Derivative of the task loss
Details? .. https://medium.freecodecamp.org/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f
Refined pose hypothesis와
True pose의 Distance (Loss)
다시 순서대로 정리해서 살펴보면
1. 입력 영상에서 Patch-wise로 Scene Coordinate Estimation
• Fully Convolution Network로 입력 Patch에 대해 출력은
해당 Patch의 center의 global 3D position
2. 2D image에 대해서 3D global position을 (우선) 구했기 때문에, 여기서 4개의
matching pair를 random 하게 뽑아서 pose estimation을 수행 (n번 수행)
• 4개의 2D-3D matching pair가 있으면 unique pose를 구할 수 있다
• 4개의 matching pair를 n번 랜덤하게 뽑아서 n개의 pose hypothesis를 구함
3. Scene Coordinate를 image에 reprojection해서 에러를 구하고, 어떤 pose
hypothesis가 좋은 예측인지 scoring
4. 가장 좋은 hypothesis를 선택하고, inlier set을 구해서 refinement. 그리고 Global
True pose와 비교해서 학습
34
Results
35
Performance (좋다)
36
Comparison (매우 좋다)
37
Result Video
38
Conclusion
39
Conclusion
• Accurate! And Robust!
• 가장 중요한 부분은 RANSAC의 Non-differentiable한 부분을 미분 가능한 형태로
구현해서 학습이 가능하도록 했다는 것
• SfM이나 SLAM과 같은 다양한 알고리즘을 deep learning framework으로 구성할 수 있지 않을까..
• DSAC to LessMore (DSAC+)
• Hypotheses scorin하는 부분이 scoring network에서 soft counting으로 바꾸었을 때 나타나는 효과는
domain knowledg의 효과를 나타낸다고 생각
• 즉, 명확하게 정보를 줄 수 있는 부분은 학습이 아니라 미분가능한 형태로 구성하는 것이,
딥러닝에서 발생하는 네트워크의 모호성을 낮출 수 있다!
• Limitations (Open problems)
• Training stability and computation load
• Scalability
• Modelling ambiguities
40
References
[1] Kendall, Alex, Matthew Grimes, and Roberto Cipolla. "Posenet: A convolutional network for real-time 6-dof camera relocalization."
Proceedings of the IEEE international conference on computer vision. 2015.
[2] Kendall, Alex, and Roberto Cipolla. "Modelling uncertainty in deep learning for camera relocalization." 2016 IEEE international conference
on Robotics and Automation (ICRA). IEEE, 2016.
[3] Kendall, Alex, and Roberto Cipolla. "Geometric loss functions for camera pose regression with deep learning." Proc. CVPR. Vol. 3. 2017.
[4] Walch, Florian, et al. "Image-based localization using lstms for structured feature correlation." Int. Conf. Comput. Vis.(ICCV). 2017.
[5] Melekhov, Iaroslav, et al. "Image-based localization using hourglass networks." arXiv preprint arXiv:1703.07971 (2017).
[6] Brachmann, Eric, et al. "DSAC-differentiable RANSAC for camera localization." IEEE Conference on Computer Vision and Pattern Recognition
(CVPR). Vol. 3. 2017.
[7] Valada, Abhinav, Noha Radwan, and Wolfram Burgard. "Deep auxiliary learning for visual localization and odometry." arXiv preprint
arXiv:1803.03642 (2018).
[8] Radwan, Noha, Abhinav Valada, and Wolfram Burgard. "Vlocnet++: Deep multitask learning for semantic visual localization and odometry."
arXiv preprint arXiv:1804.08366 (2018).
[9] Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2013.
[10] Sattler, Torsten, Bastian Leibe, and Leif Kobbelt. "Improving image-based localization by active correspondence search." European
conference on computer vision. Springer, Berlin, Heidelberg, 2012.
[11] Camposeco, Federico, et al. "Hybrid Camera Pose Estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
41
Appendix
42
PoseNet and …
43Slide from Eric Brachmann in ECCV 2018 Workshop
아직 기존 Sparse Feature 기반의
방법 보다 부정확!

More Related Content

What's hot

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用(支配方程式,CPUプログラム)2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用(支配方程式,CPUプログラム)
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)智啓 出川
 
確率ロボティクス第三回
確率ロボティクス第三回確率ロボティクス第三回
確率ロボティクス第三回Ryuichi Ueda
 
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...Deep Learning JP
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right ConsistencyRyutaro Yamauchi
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...Deep Learning JP
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
QGISセミナー中級編(V2.4)
QGISセミナー中級編(V2.4)QGISセミナー中級編(V2.4)
QGISセミナー中級編(V2.4)IWASAKI NOBUSUKE
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...Ken Sakurada
 
Research modeで取得した深度(Depth)データを可視化する
Research modeで取得した深度(Depth)データを可視化するResearch modeで取得した深度(Depth)データを可視化する
Research modeで取得した深度(Depth)データを可視化するSoichiro Sugimoto
 
埋蔵文化財発掘調査現場におけるデジタル化を考える
埋蔵文化財発掘調査現場におけるデジタル化を考える埋蔵文化財発掘調査現場におけるデジタル化を考える
埋蔵文化財発掘調査現場におけるデジタル化を考えるNOGUCHI Atsushi
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)Yasunori Ozaki
 
Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室Takami Sato
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Masaya Kaneko
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する裕規 山本
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTKitsukawa Yuki
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature FilterMorpho, Inc.
 
抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張MENGSAYLOEM1
 

What's hot (20)

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用(支配方程式,CPUプログラム)2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用(支配方程式,CPUプログラム)
2015年度先端GPGPUシミュレーション工学特論 第11回 数値流体力学への応用 (支配方程式,CPUプログラム)
 
確率ロボティクス第三回
確率ロボティクス第三回確率ロボティクス第三回
確率ロボティクス第三回
 
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
QGISセミナー中級編(V2.4)
QGISセミナー中級編(V2.4)QGISセミナー中級編(V2.4)
QGISセミナー中級編(V2.4)
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
Research modeで取得した深度(Depth)データを可視化する
Research modeで取得した深度(Depth)データを可視化するResearch modeで取得した深度(Depth)データを可視化する
Research modeで取得した深度(Depth)データを可視化する
 
埋蔵文化財発掘調査現場におけるデジタル化を考える
埋蔵文化財発掘調査現場におけるデジタル化を考える埋蔵文化財発掘調査現場におけるデジタル化を考える
埋蔵文化財発掘調査現場におけるデジタル化を考える
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
 
Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する
土石流シミュレーション結果と 3D都市モデルを組み合わせて Unityで可視化する
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張
 

Similar to Learning Less is More - 6D Camera Localization via 3D Surface Regression

"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper ReviewLEE HOSEONG
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...Gyubin Son
 
210801 hierarchical long term video frame prediction without supervision
210801 hierarchical long term video frame prediction without supervision210801 hierarchical long term video frame prediction without supervision
210801 hierarchical long term video frame prediction without supervisiontaeseon ryu
 
(Paper Review)Geometrically correct projection-based texture mapping onto a d...
(Paper Review)Geometrically correct projection-based texture mapping onto a d...(Paper Review)Geometrically correct projection-based texture mapping onto a d...
(Paper Review)Geometrically correct projection-based texture mapping onto a d...MYEONGGYU LEE
 
Segment Anything
Segment AnythingSegment Anything
Segment Anythingfake can
 
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...Jehong Lee
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현BOAZ Bigdata
 
[박민근] 3 d렌더링 옵티마이징_2
[박민근] 3 d렌더링 옵티마이징_2[박민근] 3 d렌더링 옵티마이징_2
[박민근] 3 d렌더링 옵티마이징_2MinGeun Park
 
실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬현찬 양
 
Cascade Shadow Mapping
Cascade Shadow MappingCascade Shadow Mapping
Cascade Shadow MappingSukwoo Lee
 
강화학습과 LV&A 그리고 Navigation Agent
강화학습과 LV&A 그리고 Navigation Agent강화학습과 LV&A 그리고 Navigation Agent
강화학습과 LV&A 그리고 Navigation AgentYeChan(Paul) Kim
 
Kgc make stereo game on pc
Kgc make stereo game on pcKgc make stereo game on pc
Kgc make stereo game on pcozlael ozlael
 
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)jungminchung
 
AnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIAnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIHYEJINLIM10
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
 
carrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationcarrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationLEE HOSEONG
 
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)Hansol Kang
 
HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델Seong-Bok Lee
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기Myeongju Kim
 

Similar to Learning Less is More - 6D Camera Localization via 3D Surface Regression (20)

"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
 
210801 hierarchical long term video frame prediction without supervision
210801 hierarchical long term video frame prediction without supervision210801 hierarchical long term video frame prediction without supervision
210801 hierarchical long term video frame prediction without supervision
 
(Paper Review)Geometrically correct projection-based texture mapping onto a d...
(Paper Review)Geometrically correct projection-based texture mapping onto a d...(Paper Review)Geometrically correct projection-based texture mapping onto a d...
(Paper Review)Geometrically correct projection-based texture mapping onto a d...
 
Segment Anything
Segment AnythingSegment Anything
Segment Anything
 
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
 
[박민근] 3 d렌더링 옵티마이징_2
[박민근] 3 d렌더링 옵티마이징_2[박민근] 3 d렌더링 옵티마이징_2
[박민근] 3 d렌더링 옵티마이징_2
 
실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬
 
Cascade Shadow Mapping
Cascade Shadow MappingCascade Shadow Mapping
Cascade Shadow Mapping
 
강화학습과 LV&A 그리고 Navigation Agent
강화학습과 LV&A 그리고 Navigation Agent강화학습과 LV&A 그리고 Navigation Agent
강화학습과 LV&A 그리고 Navigation Agent
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
Kgc make stereo game on pc
Kgc make stereo game on pcKgc make stereo game on pc
Kgc make stereo game on pc
 
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
 
AnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIAnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AI
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
carrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationcarrier of_tricks_for_image_classification
carrier of_tricks_for_image_classification
 
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)
관측 임무스케줄링 (Selecting and scheduling observations of agile satellites)
 
HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
 

Recently uploaded

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 

Recently uploaded (8)

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 

Learning Less is More - 6D Camera Localization via 3D Surface Regression

  • 1. Learning Less is More - 6D Camera Localization via 3D Surface Regression CVPR 2018 2019-01-04 Younggun Cho LessMore
  • 2. 본격적으로 알아보기에 앞서 … Visual Localization을 아시나요?? 2
  • 3. Q. 아래 용어 중 다른 방법을 지칭하는 말은? 1. Visual Localization 2. Image-based Localization 3. Camera Relocalization 4. Image Retrieval 5. Image-based pose estimation 6. Camera pose regression 3[1] Piasco, Nathan, et al. "A survey on Visual-Based Localization: On the benefit of heterogeneous data." Pattern Recognition 74 (2018): 90-109.
  • 4. Visual Localization이란? 4 • 입력 (query) image에 대해 카메라의 pose를 구하거나, query image와 유사한 image 들을 찾는 과정 • Feature-based method vs. Learning-based method Learning based Method Feature-based Method
  • 5. Visual Localization 목적에 따른 구분 [1] • Indirect method • Image Retrieval • 가지고 있는 이미지들 중 Query와 가장 유사한 이미지들을 찾는 것 5 • Direct method • 6D pose regression • Query의 Map 상에서의 6D pose를 구하는 것 [1] Piasco, Nathan, et al. "A survey on Visual-Based Localization: On the benefit of heterogeneous data." Pattern Recognition 74 (2018): 90-109. 근데 사실 image retrieval 후 pose estimation 하기도 함 오늘의 주제
  • 6. 그렇다면 Pose regression 방법들은 어떤 것이 있을까? 6
  • 7. Pose regression 삼국지 7 Check slide notes for references Learning Pose Directly : 네트워크를 이용해 글로벌 포즈를 바로 학습 Sparse Feature Based : 2D-3D correspondence를 구한 후 PnP method로 Pose estimation Learning Pose with 3D map points : Scene coordinates (3D map points)과 글로벌 포즈를 학습 (또는 유추)
  • 8. Sparse Feature-based Pose Regression 8 Slide from Eric Brachmann in ECCV 2018 Workshop
  • 9. Learning-based Camera Pose Regression • 학습 기반 영상의 글로벌 포즈 추정 (Naïve) 9 Slide from Eric Brachmann in ECCV 2018 WorkshopTraining image with global ground-truth poses
  • 10. Scene Coordinate Regression 10 3D Points in a map Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." IEEE Conference on Computer Vision and Pattern Recognition. 2013.
  • 11. Pose regression 삼국지 11 PoseNet Bayesian PoseNet Geometric PoseNet PoseLSTM PoseHourglass MapNet+ VLocNet+ Regression Forest Active Search Hybrid Pose Estim. Check slide notes for references DSAC LessMore (DSAC+) : VO, IMU, GPS : Multi-task SIFT + PnP : Efficient : Data Association End-to-end Learning w/ RANSAC, RGBD to RGB : 2D-2D, 2D-3D Learning Pose Directly Sparse Feature Based Learning Pose with 3D map points
  • 12. Pose regression 삼국지 12 PoseNet (‘15) Bayesian PoseNet (‘15) Geometric PoseNet (‘17) PoseLSTM (‘17) PoseHourglass (‘17) MapNet+ (’18) VLocNet+ (`18) Regression Forest (’13) Active Search (‘12) Hybrid Pose Estim. (‘18) Check slide notes for references DSAC (‘17) LessMore (‘18) Uncertainty & Loss 개선 Network 개선 : VO, IMU, GPS : Multi-task SIFT + PnP (‘81) : Efficient : Data Association End-to-end Learning w/ RANSAC, RGBD to RGB : 2D-2D, 2D-3D
  • 13. Pose regression 삼국지 13 PoseNet (‘15) Bayesian PoseNet (‘15) Geometric PoseNet (‘17) PoseLSTM (‘17) PoseHourglass (‘17) MapNet+ (’18) VLocNet+ (`18) Regression Forest (’13) Active Search (‘12) Hybrid Pose Estim. (‘18) Check slide notes for references DSAC (‘17) LessMore (‘18) Uncertainty & Loss Network : VO, IMU, GPS : Multi-task SIFT + PnP (‘81) : Efficient : Data Association End-to-end Learning w/ RANSAC, RGBD to RGB : 2D-2D, 2D-3D Global Pose를 바로 학습해보자! Scene Coor. 과 같이 Pose를 학습하면 더 좋아 포즈 추정의 고인물 (Feature 기반) 현재 SOTA
  • 14. Pose regression 삼국지 14 PoseNet (‘15) Bayesian PoseNet (‘15) Geometric PoseNet (‘17) PoseLSTM (‘17) PoseHourglass (‘17) MapNet+ (’18) VLocNet+ (`18) Regression Forest (’13) Active Search (‘12) Hybrid Pose Estim. (‘18) Check slide notes for references DSAC (‘17) LessMore (‘18) : VO, IMU, GPS : Multi-task SIFT + PnP (‘81) : Efficient : Data Association : 2D-2D, 2D-3D 오늘의 주인공
  • 15. Scene Coordinate Regression 15 3D Points in a map Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." IEEE Conference on Computer Vision and Pattern Recognition. 2013. 이걸 러닝으로 풀겠다 (RGB 입력으로)
  • 16. 그리고 RANSAC? (Random Sample Consensus) 16 • 모르시면 3분 안에 Install 해드려요 • RANSAC Song 자매품 Fundamental Matrix Song (https://www.youtube.com/watc h?v=DgGV3l82NTk)
  • 19. 우선 Scene Coordinate Estimation • Scene Coordinate란? • Global 3D points • Scene Coordinate Estimation = Global 3D Points Estimation 19
  • 20. Overview 20 Slide from Eric Brachmann in ECCV 2018 Workshop 학습하는 부분 고정 파라미터 지만 학습을 위해 미분가능하게 구성
  • 21. Overview 21 1. CNN : Trainable 2. PnP : Differentiable 3. Scoring : Differentiable? 4. Selection : Differentiable? Slide from Eric Brachmann in ECCV 2018 Workshop
  • 22. 순서대로 정리해서 살펴보면 1. 입력 영상에서 Patch-wise로 Scene Coordinate Estimation • Fully Convolution Network로 입력 Patch에 대해 출력은 해당 Patch의 center의 global 3D position 2. 2D image에 대해서 3D global position을 (우선) 구했기 때문에, 여기서 4개의 matching pair를 random 하게 뽑아서 pose estimation을 수행 (n번 수행) • 4개의 2D-3D matching pair가 있으면 unique pose를 구할 수 있다 • 4개의 matching pair를 n번 랜덤하게 뽑아서 n개의 pose hypothesis를 구함 3. Scene Coordinate를 image에 reprojection해서 에러를 구하고, 어떤 pose hypothesis가 좋은 예측인지 scoring 4. 가장 좋은 hypothesis를 선택하고, inlier set을 구해서 refinement. 그리고 Global True pose와 비교해서 학습 22
  • 23. 1. Scene Coordinate Regression • DSAC: Distance to GT scene coordinates 23 • LessMore: Reprojection Error GT pose h*를 이용해 scene coordinate를 image plane으로 projection 했을 때 pixel error y: scene coordinates y*: true scene coordinates h*: true pose p: pixels True global points를 알고 있으므로, Estimation과 GT의 Distance를 Loss로 사용 True global pose를 알고 있으므로, Estimation을 image plane으로 projection, pixel distance를 Loss로 사용
  • 24. 1. Scene Coordinate Regression • DSAC: Distance to GT scene coordinates 24 • LessMore: Reprojection Error y: scene coordinates y*: true scene coordinates h*: true pose p: pixels True global points를 알고 있으므로, Estimation과 GT의 Distance를 Loss로 사용 True global pose를 알고 있으므로, Estimation을 image plane으로 projection, pixel distance를 Loss로 사용 True global points를 몰라도 학습할 수 있다 (Unsupervised)
  • 25. 1. Scene Coordinate Regression w/o GT • Key • True Scene coordinates, 즉, RGBD 입력이나 Rendering truth가 없어도 학습이 가능하다 • Predefined depth, GT Pose를 이용해서, Plane 형태의 initial 가정 • 만약 GT scene coordinate가 있다면 그대로 사용 가능 25
  • 26. 2. Pose Hypothesis Estimation • 4개의 2D-3D correspondences -> one unique pose • PnP (Perspective-n-Point) • solvePnP in OpenCV! • N개의 pose hypotheses 생성 26 https://icwww.epfl.ch/~lepetit/papers/lepetit_ijcv08.pdf
  • 27. 2. Pose Hypotheses Estimation • 각 Hypothesis에 대해 reprojection error 계산 • C: calibration matrix • y: scene coordinate • h: pose hypothesis • p: corresponding pixel • Reprojection errors 27 https://icwww.epfl.ch/~lepetit/papers/lepetit_ijcv08.pdf
  • 28. 3. Pose Hypothesis Scoring 28Slide from Eric Brachmann in ECCV 2018 Workshop Sigmoid function을 이용한 soft counting Score learning 보다 좋은 이유 1. Learning은 global error를 학습하므로 generalize 성능 떨어짐 2. 강한 스코어를 가지는 hypothesis로 치우치게 된다 (overfit) • Reprojection error를 이용해서 각 hypothesis를 scoring 해야한다 Soft Counting이 Generality가 훨씬 좋다
  • 29. 4. Hypothesis Selection 29 가장 좋은 hypothesis는 어떻게 선택하나?
  • 30. • Probabilistic Selection • Softmax distribution with scaling factor α (α에 대한 학습은 다음페이지) • Policy gradient 기반의 학습방법 • RL에서 expected reward를 최대화 하는 policy를 구하는 것 처럼, 여기선 expected loss를 minimize하는 hypothesis를 구하는 것 (이를 위해 softmax를 이용해서 확률화) 4. Hypothesis Selection 30
  • 31. 4. Hypothesis Selection – Entropy Control • Inlier score는 scene의 종류에 따라 달라질 수 있기 때문에, 여러 이미지에서 고르게 학습이 되려면, inlier score의 magnitude를 적절하게 유지해주는 것이 좋다! • First few iteration에서 target entropy를 설정하고, target entropy와 유사하게 scoring probability가 나오도록 α 를 학습 31
  • 32. 5. End-to-end Learning • Pose refinement process를 미분 가능하게 approximation • Pose refinement (R) 만 미분가능하면 이제 모든 process가 미분가능! (학습가능) 32 Reproj error of inliers Approximated gradient for training
  • 33. 5. End-to-end Learning • Learning the pipeline (Policy Gradient) • Policy Gradient에서 최적의 Policy를 학습 = 최적의 pose hypothesis를 학습 • Policy Gradient에서 Maximum reward로 학습 = Minimum pose loss로 학습 33 z Derivative of the selection probability Derivative of the task loss Details? .. https://medium.freecodecamp.org/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f Refined pose hypothesis와 True pose의 Distance (Loss)
  • 34. 다시 순서대로 정리해서 살펴보면 1. 입력 영상에서 Patch-wise로 Scene Coordinate Estimation • Fully Convolution Network로 입력 Patch에 대해 출력은 해당 Patch의 center의 global 3D position 2. 2D image에 대해서 3D global position을 (우선) 구했기 때문에, 여기서 4개의 matching pair를 random 하게 뽑아서 pose estimation을 수행 (n번 수행) • 4개의 2D-3D matching pair가 있으면 unique pose를 구할 수 있다 • 4개의 matching pair를 n번 랜덤하게 뽑아서 n개의 pose hypothesis를 구함 3. Scene Coordinate를 image에 reprojection해서 에러를 구하고, 어떤 pose hypothesis가 좋은 예측인지 scoring 4. 가장 좋은 hypothesis를 선택하고, inlier set을 구해서 refinement. 그리고 Global True pose와 비교해서 학습 34
  • 40. Conclusion • Accurate! And Robust! • 가장 중요한 부분은 RANSAC의 Non-differentiable한 부분을 미분 가능한 형태로 구현해서 학습이 가능하도록 했다는 것 • SfM이나 SLAM과 같은 다양한 알고리즘을 deep learning framework으로 구성할 수 있지 않을까.. • DSAC to LessMore (DSAC+) • Hypotheses scorin하는 부분이 scoring network에서 soft counting으로 바꾸었을 때 나타나는 효과는 domain knowledg의 효과를 나타낸다고 생각 • 즉, 명확하게 정보를 줄 수 있는 부분은 학습이 아니라 미분가능한 형태로 구성하는 것이, 딥러닝에서 발생하는 네트워크의 모호성을 낮출 수 있다! • Limitations (Open problems) • Training stability and computation load • Scalability • Modelling ambiguities 40
  • 41. References [1] Kendall, Alex, Matthew Grimes, and Roberto Cipolla. "Posenet: A convolutional network for real-time 6-dof camera relocalization." Proceedings of the IEEE international conference on computer vision. 2015. [2] Kendall, Alex, and Roberto Cipolla. "Modelling uncertainty in deep learning for camera relocalization." 2016 IEEE international conference on Robotics and Automation (ICRA). IEEE, 2016. [3] Kendall, Alex, and Roberto Cipolla. "Geometric loss functions for camera pose regression with deep learning." Proc. CVPR. Vol. 3. 2017. [4] Walch, Florian, et al. "Image-based localization using lstms for structured feature correlation." Int. Conf. Comput. Vis.(ICCV). 2017. [5] Melekhov, Iaroslav, et al. "Image-based localization using hourglass networks." arXiv preprint arXiv:1703.07971 (2017). [6] Brachmann, Eric, et al. "DSAC-differentiable RANSAC for camera localization." IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Vol. 3. 2017. [7] Valada, Abhinav, Noha Radwan, and Wolfram Burgard. "Deep auxiliary learning for visual localization and odometry." arXiv preprint arXiv:1803.03642 (2018). [8] Radwan, Noha, Abhinav Valada, and Wolfram Burgard. "Vlocnet++: Deep multitask learning for semantic visual localization and odometry." arXiv preprint arXiv:1804.08366 (2018). [9] Shotton, Jamie, et al. "Scene coordinate regression forests for camera relocalization in RGB-D images." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013. [10] Sattler, Torsten, Bastian Leibe, and Leif Kobbelt. "Improving image-based localization by active correspondence search." European conference on computer vision. Springer, Berlin, Heidelberg, 2012. [11] Camposeco, Federico, et al. "Hybrid Camera Pose Estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. 41
  • 43. PoseNet and … 43Slide from Eric Brachmann in ECCV 2018 Workshop 아직 기존 Sparse Feature 기반의 방법 보다 부정확!