SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
Learning Single Camera Depth Estimation
using Dual-Pixels
#cvsaisentan
ICCV ‘19 読み会
@mhr380
In ICCV 2019 (Oral Presentation)
Presenter: @mhr380
Rahul Garg, Neal Wadhwa, Sameer Ansari, Jonathan T. Barron
Google Research
Learning Single Camera Depth Estimation
using Dual-Pixels
3
⚫ 本論文はGoogle Pixel 3 向けに開発された技術
⚫ 2018/11/29 の Google AI Blogに大まかな内容が掲載
Googleによる発表・・・?
https://ai.googleblog.com/2018/11/learning-to-predict-depth-on-pixel-3.html
カメラは1個だけ!
4
⚫ 本論文はGoogle Pixel 3 向けに開発された技術
⚫ 2018/11/29 の Google AI Blogに大まかな内容が掲載
Googleによる発表・・・?
Depthに応じたボケを付与通常撮影
カメラは1個だけ!
5
まずは結果を確認
入力 GT 入力 GT 提案法 入力 GT 提案法提案法
なんかすごい (単眼しか入力していないのに、結構正確なように見える)
6
⚫ センサについて
⚫ Learning-based Depth推定の方法
◼ センサの性質に応じたLossの設計
◼ 学習用データセットの構築
⚫ 実験
⚫ まとめ
⚫ 所感
おしながき
7
⚫ 実は、普通のRGBセンサを使って単眼Depth推定をしているわけではない
⚫ Dual Pixel Sensorと呼ばれる、若干特殊なイメージセンサを利用
センサについて
Green画素が左右に分かれている
通常のベイヤ配列センサ Dual Pixel Sensor
左右別々に輝度値を読み出すことができる!
※ Dual Pixel Sensorはキヤノンがカメラのオートフォーカス用Depth推定のために発明
8
⚫ Dual Pixel Sensorを使うと嬉しいこと 単眼なのにStereo相当の画像を得られること
センサについて
レンズの左右から入る光が
画素の別々のところに記録される
視差が生じる!
キヤノンのDual Pixel搭載一眼レフ機で撮影した画像に
OpenCVのステレオマッチング関数を適用した例
https://www.magiclantern.fm/forum/index.php?topic=17695.msg172097#msg172097
9
⚫ Stereo画像とDual Pixel画像の差異
◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在
◼ 視差 → Depthへの一意な変換が難しい
センサについて
𝑍 = 𝑓 ⋅
Baseline
𝑑 このモデルをそのまま利用できない
10
⚫ Stereo画像とDual Pixel画像の差異
◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在
◼ 視差 → Depthへの一意な変換が難しい
⚫ 直感的な理解
◼ そのときフォーカスが合っている位置の視差はゼロになり、
合焦の手前と奥で、視差の符号が変わる
センサについて
オートフォーカスで▲に合焦しているときの視差
カメラ
Z
11
⚫ Stereo画像とDual Pixel画像の差異
◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在
◼ 視差 → Depthへの一意な変換が難しい
⚫ 直感的な理解
◼ そのときフォーカスが合っている位置の視差はゼロになり、
合焦の手前と奥で、視差の符号が変わる
センサについて
オートフォーカスで▲に合焦しているときの視差
カメラ
Z
12
⚫ Stereo画像とDual Pixel画像の差異
◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在
◼ 視差 → Depthへの一意な変換が難しい
⚫ 直感的な理解
◼ そのときフォーカスが合っている位置の視差はゼロになり、
合焦の手前と奥で、視差の符号が変わる
センサについて
オートフォーカスで●に合焦しているときの視差
カメラ
Z
13
⚫ Stereo画像とDual Pixel画像の差異
◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在
◼ 視差 → Depthへの一意な変換が難しい
⚫ 直感的な理解
◼ そのときフォーカスが合っている位置の視差はゼロになり、
合焦の手前と奥で、視差の符号が変わる
センサについて
オートフォーカスで●に合焦しているときの視差
カメラ
Z
14
⚫ Stereo画像とDual Pixel画像の差異
センサについて
オートフォーカスで
メインレンズの位置が変化する
青点にフォーカスを合わせたい
被写体の位置が違うのに
センサ面上での光線の振る舞いが
同じになってしまう
シーン(a) シーン(b)
15
⚫ Stereo画像とDual Pixel画像の差異
◼ 視差からdepthへ変換するモデルに、推定が困難な2つのパラメータ(A, B)が存在
◼ キャリブを頑張れば得られる値であるが、
工場で一度キャリブしたところで、その値を信頼し続けることは不可能
◼ 特にスマホ向けであるため、ユーザが手荒に扱うことも多いので、
「キャリブでなんとか」という考え方は捨てないといけない
センサについて
視差
デプス
𝐿: 開口の大きさ
𝑓: レンズの焦点距離
𝑔: カメラの焦点距離(合焦位置までの距離)
16
⚫ センサについて
⚫ Learning-based Depth推定の方法
◼ センサの性質に応じたLossの設計
◼ 学習用データセットの構築
⚫ 実験
⚫ まとめ
⚫ 所感
おしながき
17
⚫ センサの性質に応じたLossの設計
1. 3D Assisted Loss
◼ 二乗誤差の最小化により、視差→Depth変換に必要なオフセット 𝑎・スケール 𝑏 を推定
2. Folded Loss
◼ 複数視点の画像間で、画像が一致するようにWarpingし、Warp誤差を最小化して、視差を推定
Learning-based Depth推定の方法
CNN出力スケール オフセット教師DepthConfidence
ො𝑎, ෠𝑏 =
※ よく聞くテクだが、詳しくは読み込めなかったので、どなたか補足があればお願いします・・・
18
⚫ センサについて
⚫ Learning-based Depth推定の方法
◼ センサの性質に応じたLossの設計
◼ 学習用データセットの構築
⚫ 実験
⚫ まとめ
⚫ 所感
おしながき
19
⚫ 学習用データセットの構築
◼ Pixel 3を5台並べたRigを作成、同期撮影*を行う
◼ 教師DepthはMVSで生成
• COLMAPで得られたDepthと、オリジナルのMVS手法で得られたDepthの違いからConfidenceを算出
Learning-based Depth推定の方法
* Ansari, Wadhwa, Garg, Chen. Wireless software synchronization of multiple distributed cameras. ICCP, 2019
20
⚫ センサについて
⚫ Learning-based Depth推定の方法
◼ センサの性質に応じたLossの設計
◼ 学習用データセットの構築
⚫ 実験
⚫ まとめ
⚫ 所感
おしながき
21
⚫ ネットワーク
◼ U-Netベースの”DP-Net”とVGGで実験を行ったとの言及
◼ Dual Pixel 画像をCNNへどう入力したかが読み取れなかった……
⚫ 入力
◼ 画像の中央66%のみをクロップして入力
• 画像端ではDual Pixelの特性が良くないため・Radial 歪みの影響が大きいため
◼ 入力の縮小は行っていない
• 通常のStereoに比べて視差が小さくなるため、縮小すると精度に与える影響が大きい
◼ Train : Test は 2757枚 : 718枚
⚫ 評価
◼ COLMAPで得られたDepthと、別に用意したオリジナルMVSによるDepthの双方で評価
実験
22
⚫ 「RGB+Dual Pixel入力 ・ スケールとオフセットの推定込み」(提案手法)が最も良い
実験
RGB入力
RGB+DP
入力
[55] Wadhwa, Garg, Jacobs, Feldman, Kanazawa, Carroll, Attias, Barron, Pritch, Levoy, Synthetic Depth-of-Field with a Single-Camera Mobile Phone, SIGGRPAH 2018.
Dual Pixel画像を利用したステレオマッチングベースの手法. Google Pixel 2に搭載.
AIWE
23
⚫ 平均的な結果
実験
GT 提案 提案
(スケールのみ推定)
RGBのみ
入力
単眼Depth
SoTA手法
Dual Pixelの
Stereo Matching
24
⚫ Top 5
実験
GT 提案 提案
(スケールのみ推定)
RGBのみ
入力
単眼Depth
SoTA手法
Dual Pixelの
Stereo Matching
25
⚫ Worst 5
実験
GT 提案 提案
(スケールのみ推定)
RGBのみ
入力
単眼Depth
SoTA手法
Dual Pixelの
Stereo Matching
視差が大きな手がかりとなるため、テクスチャが無い領域では
どの手法も性能が悪化
26
まとめ
Dual Pixel Sensorで生じる
視差→depth変換時の不定性をモデリングし
Google Pixelを5台並べたRigをつくり
MVSで教師Depthを生成して
DP入力からDepthを推定できるよう
学習する論文
27
⚫ Appendix
28
⚫ “Flash applets on some technical aspects of photography”
◼ Marc Levoy (Stanford → Google, CG・CP界隈でのレジェンド) らによるカメラ光学系の教材。
• Flashで作られているのでいつまで動くか……
• 似たようなコンテンツをご存じの方は教えて下さると嬉しいです。
参考ツール
https://graphics.stanford.edu/courses/cs178-10/applets

Contenu connexe

Tendances

Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepthKenta Tanaka
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説Masaya Kaneko
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 

Tendances (20)

Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepth
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 

Similaire à ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"

ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
Neural Network Console delta_tokyo_#3
Neural Network Console delta_tokyo_#3Neural Network Console delta_tokyo_#3
Neural Network Console delta_tokyo_#3AkiraYasukawa1
 
Kinect深度情報処理入門
Kinect深度情報処理入門Kinect深度情報処理入門
Kinect深度情報処理入門伸男 伊藤
 
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3moto2g
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門ShinichiroSaito
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
Core Graphics on watchOS 2
Core Graphics on watchOS 2Core Graphics on watchOS 2
Core Graphics on watchOS 2Shuichi Tsutsumi
 
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!Yasutomo Imairi
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウKentarou Mukunasi
 
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017Tomo Masuda
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」Web Technology Corp.
 
Rustで3D graphics programming
Rustで3D graphics programmingRustで3D graphics programming
Rustで3D graphics programmingKiyotomoHiroyasu
 
WeDX Flow Hands-on
WeDX Flow Hands-onWeDX Flow Hands-on
WeDX Flow Hands-onJingun Jung
 
Iccv2019 参加報告
Iccv2019 参加報告Iccv2019 参加報告
Iccv2019 参加報告Yuta Nakagawa
 

Similaire à ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels" (20)

ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
Neural Network Console delta_tokyo_#3
Neural Network Console delta_tokyo_#3Neural Network Console delta_tokyo_#3
Neural Network Console delta_tokyo_#3
 
Kinect深度情報処理入門
Kinect深度情報処理入門Kinect深度情報処理入門
Kinect深度情報処理入門
 
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3
Webカメラ画像のリアルタイム識別 / Web Cam Image Recognition with Inception V3
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
GDC2018 Amazon Overview
GDC2018 Amazon OverviewGDC2018 Amazon Overview
GDC2018 Amazon Overview
 
テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
Core Graphics on watchOS 2
Core Graphics on watchOS 2Core Graphics on watchOS 2
Core Graphics on watchOS 2
 
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!
関西MSP勉強会~Kinect編~ ハンズオン資料 Kinectで身長を計測しよう!
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ
 
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」
CEDEC2014 セッション資料「ヘキサドライブ流 OPTPiX SpriteStudio 最適化術!」
 
Rustで3D graphics programming
Rustで3D graphics programmingRustで3D graphics programming
Rustで3D graphics programming
 
WeDX Flow Hands-on
WeDX Flow Hands-onWeDX Flow Hands-on
WeDX Flow Hands-on
 
Iccv2019 参加報告
Iccv2019 参加報告Iccv2019 参加報告
Iccv2019 参加報告
 

Dernier

20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 

Dernier (12)

20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 

ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"

  • 1. Learning Single Camera Depth Estimation using Dual-Pixels #cvsaisentan ICCV ‘19 読み会 @mhr380
  • 2. In ICCV 2019 (Oral Presentation) Presenter: @mhr380 Rahul Garg, Neal Wadhwa, Sameer Ansari, Jonathan T. Barron Google Research Learning Single Camera Depth Estimation using Dual-Pixels
  • 3. 3 ⚫ 本論文はGoogle Pixel 3 向けに開発された技術 ⚫ 2018/11/29 の Google AI Blogに大まかな内容が掲載 Googleによる発表・・・? https://ai.googleblog.com/2018/11/learning-to-predict-depth-on-pixel-3.html カメラは1個だけ!
  • 4. 4 ⚫ 本論文はGoogle Pixel 3 向けに開発された技術 ⚫ 2018/11/29 の Google AI Blogに大まかな内容が掲載 Googleによる発表・・・? Depthに応じたボケを付与通常撮影 カメラは1個だけ!
  • 5. 5 まずは結果を確認 入力 GT 入力 GT 提案法 入力 GT 提案法提案法 なんかすごい (単眼しか入力していないのに、結構正確なように見える)
  • 6. 6 ⚫ センサについて ⚫ Learning-based Depth推定の方法 ◼ センサの性質に応じたLossの設計 ◼ 学習用データセットの構築 ⚫ 実験 ⚫ まとめ ⚫ 所感 おしながき
  • 7. 7 ⚫ 実は、普通のRGBセンサを使って単眼Depth推定をしているわけではない ⚫ Dual Pixel Sensorと呼ばれる、若干特殊なイメージセンサを利用 センサについて Green画素が左右に分かれている 通常のベイヤ配列センサ Dual Pixel Sensor 左右別々に輝度値を読み出すことができる! ※ Dual Pixel Sensorはキヤノンがカメラのオートフォーカス用Depth推定のために発明
  • 8. 8 ⚫ Dual Pixel Sensorを使うと嬉しいこと 単眼なのにStereo相当の画像を得られること センサについて レンズの左右から入る光が 画素の別々のところに記録される 視差が生じる! キヤノンのDual Pixel搭載一眼レフ機で撮影した画像に OpenCVのステレオマッチング関数を適用した例 https://www.magiclantern.fm/forum/index.php?topic=17695.msg172097#msg172097
  • 9. 9 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在 ◼ 視差 → Depthへの一意な変換が難しい センサについて 𝑍 = 𝑓 ⋅ Baseline 𝑑 このモデルをそのまま利用できない
  • 10. 10 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在 ◼ 視差 → Depthへの一意な変換が難しい ⚫ 直感的な理解 ◼ そのときフォーカスが合っている位置の視差はゼロになり、 合焦の手前と奥で、視差の符号が変わる センサについて オートフォーカスで▲に合焦しているときの視差 カメラ Z
  • 11. 11 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在 ◼ 視差 → Depthへの一意な変換が難しい ⚫ 直感的な理解 ◼ そのときフォーカスが合っている位置の視差はゼロになり、 合焦の手前と奥で、視差の符号が変わる センサについて オートフォーカスで▲に合焦しているときの視差 カメラ Z
  • 12. 12 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在 ◼ 視差 → Depthへの一意な変換が難しい ⚫ 直感的な理解 ◼ そのときフォーカスが合っている位置の視差はゼロになり、 合焦の手前と奥で、視差の符号が変わる センサについて オートフォーカスで●に合焦しているときの視差 カメラ Z
  • 13. 13 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 異なる奥行きに物体があるにも関わらず、観測される視差が同じになってしまうAmbiguityが存在 ◼ 視差 → Depthへの一意な変換が難しい ⚫ 直感的な理解 ◼ そのときフォーカスが合っている位置の視差はゼロになり、 合焦の手前と奥で、視差の符号が変わる センサについて オートフォーカスで●に合焦しているときの視差 カメラ Z
  • 15. 15 ⚫ Stereo画像とDual Pixel画像の差異 ◼ 視差からdepthへ変換するモデルに、推定が困難な2つのパラメータ(A, B)が存在 ◼ キャリブを頑張れば得られる値であるが、 工場で一度キャリブしたところで、その値を信頼し続けることは不可能 ◼ 特にスマホ向けであるため、ユーザが手荒に扱うことも多いので、 「キャリブでなんとか」という考え方は捨てないといけない センサについて 視差 デプス 𝐿: 開口の大きさ 𝑓: レンズの焦点距離 𝑔: カメラの焦点距離(合焦位置までの距離)
  • 16. 16 ⚫ センサについて ⚫ Learning-based Depth推定の方法 ◼ センサの性質に応じたLossの設計 ◼ 学習用データセットの構築 ⚫ 実験 ⚫ まとめ ⚫ 所感 おしながき
  • 17. 17 ⚫ センサの性質に応じたLossの設計 1. 3D Assisted Loss ◼ 二乗誤差の最小化により、視差→Depth変換に必要なオフセット 𝑎・スケール 𝑏 を推定 2. Folded Loss ◼ 複数視点の画像間で、画像が一致するようにWarpingし、Warp誤差を最小化して、視差を推定 Learning-based Depth推定の方法 CNN出力スケール オフセット教師DepthConfidence ො𝑎, ෠𝑏 = ※ よく聞くテクだが、詳しくは読み込めなかったので、どなたか補足があればお願いします・・・
  • 18. 18 ⚫ センサについて ⚫ Learning-based Depth推定の方法 ◼ センサの性質に応じたLossの設計 ◼ 学習用データセットの構築 ⚫ 実験 ⚫ まとめ ⚫ 所感 おしながき
  • 19. 19 ⚫ 学習用データセットの構築 ◼ Pixel 3を5台並べたRigを作成、同期撮影*を行う ◼ 教師DepthはMVSで生成 • COLMAPで得られたDepthと、オリジナルのMVS手法で得られたDepthの違いからConfidenceを算出 Learning-based Depth推定の方法 * Ansari, Wadhwa, Garg, Chen. Wireless software synchronization of multiple distributed cameras. ICCP, 2019
  • 20. 20 ⚫ センサについて ⚫ Learning-based Depth推定の方法 ◼ センサの性質に応じたLossの設計 ◼ 学習用データセットの構築 ⚫ 実験 ⚫ まとめ ⚫ 所感 おしながき
  • 21. 21 ⚫ ネットワーク ◼ U-Netベースの”DP-Net”とVGGで実験を行ったとの言及 ◼ Dual Pixel 画像をCNNへどう入力したかが読み取れなかった…… ⚫ 入力 ◼ 画像の中央66%のみをクロップして入力 • 画像端ではDual Pixelの特性が良くないため・Radial 歪みの影響が大きいため ◼ 入力の縮小は行っていない • 通常のStereoに比べて視差が小さくなるため、縮小すると精度に与える影響が大きい ◼ Train : Test は 2757枚 : 718枚 ⚫ 評価 ◼ COLMAPで得られたDepthと、別に用意したオリジナルMVSによるDepthの双方で評価 実験
  • 22. 22 ⚫ 「RGB+Dual Pixel入力 ・ スケールとオフセットの推定込み」(提案手法)が最も良い 実験 RGB入力 RGB+DP 入力 [55] Wadhwa, Garg, Jacobs, Feldman, Kanazawa, Carroll, Attias, Barron, Pritch, Levoy, Synthetic Depth-of-Field with a Single-Camera Mobile Phone, SIGGRPAH 2018. Dual Pixel画像を利用したステレオマッチングベースの手法. Google Pixel 2に搭載. AIWE
  • 23. 23 ⚫ 平均的な結果 実験 GT 提案 提案 (スケールのみ推定) RGBのみ 入力 単眼Depth SoTA手法 Dual Pixelの Stereo Matching
  • 24. 24 ⚫ Top 5 実験 GT 提案 提案 (スケールのみ推定) RGBのみ 入力 単眼Depth SoTA手法 Dual Pixelの Stereo Matching
  • 25. 25 ⚫ Worst 5 実験 GT 提案 提案 (スケールのみ推定) RGBのみ 入力 単眼Depth SoTA手法 Dual Pixelの Stereo Matching 視差が大きな手がかりとなるため、テクスチャが無い領域では どの手法も性能が悪化
  • 26. 26 まとめ Dual Pixel Sensorで生じる 視差→depth変換時の不定性をモデリングし Google Pixelを5台並べたRigをつくり MVSで教師Depthを生成して DP入力からDepthを推定できるよう 学習する論文
  • 28. 28 ⚫ “Flash applets on some technical aspects of photography” ◼ Marc Levoy (Stanford → Google, CG・CP界隈でのレジェンド) らによるカメラ光学系の教材。 • Flashで作られているのでいつまで動くか…… • 似たようなコンテンツをご存じの方は教えて下さると嬉しいです。 参考ツール https://graphics.stanford.edu/courses/cs178-10/applets