3. 問題点 - 理想
CVPR2020の査読ガイドライン
http://cvpr2020.thecvf.com/submission/main-conference/reviewer-guidelines
What to Look For
Each paper that is accepted should be technically sound and make a contribution to the field.
Look for what's good or stimulating in the paper. We recommend that you embrace novel, brave
concepts, even if they have not been tested on many datasets. For example, the fact that a
proposed method does not exceed the state-of-the-art accuracy on an existing benchmark
dataset is not grounds for rejection by itself. Rather, it is important to weigh both the novelty
and potential impact of the work alongside the reported performance. Minor flaws that can be
easily corrected should not be a reason to reject a paper.
SOTA超越の有無だけでは
Rejectの理由にならない
新規性・波及効果
と
パフォーマンス
の両輪
8. Taskonomy: Disentangling Task Transfer Learning
Amir R. Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese
Abstract
法線推定と深度推定のように,タスク同士の関連
性に関する研究.ソースタスクで学習した Encoder
を用いて別のタスクを学習することで,タスク間の
転移のしやすさを調査した.
CVPR2018 Best Paper
Teaser
Status
● 分野:Machine Learning
● Performance?:Not
●
●
Comment
実験には47,886GPU時間要したと有る通り,マシ
ンパワーで殴る研究.
「タスク間の関係性」という誰でも気になるが実験
に手が出なかった領域を埋めた好例.
9. Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
Hanbyul Joo, Tomas Simon, Yaser Sheikh : CMU
Abstract
マルチビュー前提,3D形状モデルベースで,マー
カレスで人のパーツレベルの位置合わせ.表情や
手指のポーズまでやるのがスゴイ.多視点ステレ
オで面を取って3D形状モデルのICP位置合わせを
行うが,SMPLは体レベルは出来ているのに対し,
こちらは表情と手指も更に追加.更に髪,服まで位
置合わせの対象にする.
CVPR2018, Best Student Paper
SMPL
Status
● 分野:3D Deformation
● Performance?:Not
Comment
OpenPoseのチームの学生の論文.数値的ではな
い(もはやtrivial)
指が曲がっていない.
+表情+手指 +髪+服
10. Deep Learning of Graph Matching
Andrei Zanfir and Cristian Sminchisescu : Institute of Mathematics of the Romanian Academy
Abstract
タイトル通り.深層学習に落とし込むための理論の
提供が貢献.グラフマッチングは実にあらゆる所で
使われる基礎であり,需要が高い.
CVPR2018, Honorable mention
Status
● 分野:Machine Learning
● Performance?:Not
●
●
Comment
Taskonomy無ければBPだったのでは?
ICML,ICLRではないのは投稿時期?
ソース
ターゲットと
結果
真値
キーポイント推定タスクに適用した例
11. SPLATNet: Sparse Lattice Networks for Point Cloud Processing
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz
Abstract
DNNで3D点群処理する時の共通課題は,点間距
離などのリーズナブルなジオメトリの定義方法にな
るが,こちらは特徴空間上で格子に乗せた上で畳
みこむのが特徴.格子に乗っていれば隣接関係は
明確なので普通に畳み込める.※この論文での特
徴は(XYZRGB)
CVPR2018, Honorable mention
Status
● 分野:3D
● Performance?:Yes
●
●
Comment
この時は3D点群のDNNによる処理の方法論の探索フェー
ズにあった.目的はパフォーマンスだが,課題がちゃんと見
えていること,それに対するStraight forwardな解決方法を
思いついて実現したことが成功した理由と思われる.
12. CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM
Michael Bloesch, Jan Czarnowski, Ronald Clark, Stefan Leutenegger, Andrew J. Davison : Imperial College
London
Abstract
点ではなく面データで位置合わせするのでマップ
が密になる利点がうれしい DenseSLAMにおいて,
ストレートにやるとやはり表現が重すぎる!という
共通課題に対し,Deepの力を使って適切な幾何
表現の符号化をしてあげることで効率的な SLAM
が行えるようにした.
CVPR2018, Honorable mention
Status
● 分野:SLAM
● Performance?:Yes
●
●
Comment
(ロングランだが)流行のDenseSLAMに対する方策の一
つ.ロボット分野の会議だとこういうのがバンバン出ている
印象.こういうコーディングは位置合わせ業界では複数出て
いるし注目度も高い.SLAMだと精度と処理効率が同等に重
要視される.
コード化の例.上下で見比べると同じ場所に同様のコードが付与されている.
14. GANimation: Anatomically-aware Facial Animation from a Single Image
Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer
Abstract
Action Unitの強度をコンディションとして与えること
で,入力画像の表情を Action Unitで指定した表情
に変更する手法を提案.アテンションマスクが反応
した部分のみを編集することで,背景変化などに
頑健.学習にはAction Unitのアノテーションがつい
た画像のみを用いる.
Teaser
Status
● 分野:Facial Animation, GAN
● Performance?:Yes
●
●
Comment
連続的な表情変化が可能,背景に頑健など汎用
性の高さが評価された?
ECCV2018
Honorable Mention
15. Group Normalization
Yuxin Wu, Kaiming He
Abstract
DNNで広く用いられるBatch Normalizationは,
バッチサイズが小さくなると誤差が大きくなるという
問題があった.それに対して,バッチサイズが小さ
くても有効な正規化手法である Group
Normalizationを提案.
Teaser
Status
● 分野:Deep Learning
● Performance?:Yes
●
●
Comment
CVの問題を扱うのではなく, CVの問題を解くツー
ルであるDNNのモジュールを提案.
特定のタスクに特化しているわけではないので,
分野全体への貢献が大きい?
ECCV2018
Honorable Mention
16. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
Martin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebel
Abstract
RGB画像を入力として物体検出及び 6D姿勢検出
を行う.シミュレーションした 3Dモデルを用いて
オートエンコーダを学習することで,リアルデータを
必要とせずに学習することを可能とした.
Teaser
Status
● 分野:6D pose estimation
● Performance?:Yes
●
●
Comment
合成データによって学習をしたにも関わらず SOTA
というのが評価された?
特に3次元データの場合実データを集めるのが大
変なため評価が高い?
ECCV2018
Best Paper
17. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, ,Ioannis
Gkioulekas
Abstract
カメラの視界に映らない, Non-Line-of-Sigh(NLOS)物
体を周辺環境での反射を用いて復元する研究.
この論文では,カメラ視野に映る他物体に反射する光
子とNLOS物体表面の反射の関係性から,
幾何的な制約条件を発見し,それに基づいて NLOS物
体の3D表面の復元に成功.
Teaser
Status
● 分野:Non-Line-of-Sight
● Performance?:Yes
● 精度でビンタだが,幾何学的な法
則性の発見は面白い
Comment
先行研究が音響などを補助として使用していたのに対し,古
典的な幾何学の応用により
実現した.
光を送信するレーザを用いることで実現するため自動運転,
医療画像にも応用可能.
このネタでNatureにも通している.
CVPR2019 Best Paper Award
18. Learning the Depths of Moving People by Watching Frozen People
Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman and Noah Snavely.
Abstract
RGB入力からの人の深度推定を行う研究. Kinectは
屋外で使えないので,深度推定用のデータセットは少
なかった.2016年に流行ったマネキンチャレンジ動画
(カメラが動いて,人が静止)を用いて,人を静止物と
して扱い,従来の深度推定手法 (SfM)を用いて大量
データセットを作成.
Teaser
Status
● 分野:深度推定,データセット
● Performance?:No (性能も示して
いるが,データセット作りが主題)
Comment
マネキンチャレンジ動画に着目して教師ありデータ
セットを作成するという斬新なアイデアと,実際に
そのデータセットを用いて人の深度推定を行いモ
デルの性能も示している.
CVPR2019 Best Paper Honorable Mention
19. A Style-Based Generator Architecture for Generative Adversarial Networks
Tero Karras, Samuli Laine, Timo Aila
Abstract
1024×1024の高解像度の画像生成を行う研究.
GANの層を段階的に増やして安定的に高解像度を扱
う工夫と,解像度ごとに潜在表現ベクトルを用意する
ことで解像度の段階的に分離して制御ができる.顔画
像であれば,顔全体,目などの部分に焦点をあてるこ
とができる.
Teaser
Status
● 分野:画像生成,スタイル変換
● Performance?:Yes
● 生成画像の「制御」の柔軟性に着
目している.
Comment
先行研究であるStyle-Transferに用いられるAdaIN
のアイデアを取り入れ,制御可能な画像生成を目
指している.解像度ごとに分離して制御できる構造
,ランダムノイズを各特徴マップに付与し,顔のシ
ワなどを確率的に表現.
CVPR2019 Best Paper Honorable Mention
20. SinGAN: Learning a Generative Model from a Single Natural Image
Tamar Rott Shaham, Tali Dekel, Tomer Michaeli
Abstract
GANといえば分布のサンプルを多く見せて分布を
再現するように学習するし,画像だったら同種の画
像を多く見せるわけだが, SinGANではSingle画像
だけが学習データである.画像のパッチをランダム
に切り出してGANに流し,その画像の intrinsic
distirbutionを捉えるという思想.超解像やアニメー
ションができる.
ICCV2019 Best Paper
Status
● 分野:GAN
● Performance?:Not
Comment
まず画像一枚が学習データという驚きがある.さら
に,結果がきれいという驚きがある.これは GANで
今まで実現できていなかった.
21. Asynchronous Single-Photon 3D Imaging
Anant Gupta, Atul Ingle, Mohit Gupta : University of Wisconsin-Madison
Abstract
ピコ秒レベルの精密高速計測で光子の航続時間
(ToF)を捉えるSPADという新しめのToFセンサが注
目されているが,太陽光下ではうまく計測できな
い.そこで,環境光下でもできる枠組みを提案.通
常,射光と受光(シャッター開口)のタイミングを合わ
せるが,これをずらすことで,そもそも環境光が積
み重ねられるという状況を回避する.
ICCV2019 Honorable mention
Status
● 分野:3D計測
● Performance?:Yes
Comment
現象的にそもそもうまくいく方法を掘れている.
明らかな問題に対し,明らかな解法で望み,明らか
な結果を出している.
SPADは受光ギリ手前のタイミングでシャッター空けるとピーク計測しやすい.
射光-受光のタイミングをずらしながら複数試行&統合で綺麗なピークになる.
22. Gated2Depth: Real-Time Dense Lidar From Gated Images
Tobias Gruber, Frank Julca-Aguilar, Mario Bijelic, Felix Heide : Daimler, Algolux, Ulm University, Princeton
University
Abstract
密に実時間で3D計測を実現する,レーザ +高速
シャッタカメラ(Gated camera),ステレオカメラ
,LiDARのコンポーネントによる車載計測システ
ム.密なデプス画像を 3センサのデータから UNetで
生成.学習時には合成データも使う.
ICCV2019 Honorable mention
Status
● 分野:3D計測
● Performance?:Yes
Comment
The企業.流行りもの集めた感じ.
23. Robust Change Captioning
Dong Huk Park, Trevor Darrell, Anna Rohrbach
Abstract
同シーンの2枚の画像A,Bの前後の変化を文章で
出力するタスクChange Captioningについて,
ちょっとカメラが移動するとか環境の照度変化が
あっても頑健にできるようにした. CNN特徴の引き
算A-B=Dを連結したベクトルAD,BDで,Spatial
Attention(Dual Attention).文章化でも,AとBとD
でのAttention機構によるRNNで文章出力.
ICCV2019 Best Paper Nominee
Status
● 分野:Vision and Language
● Performance?:Not
Comment
AreaChairウケが良かった?
やっていることはシンプルに感じるので,シンプル
さに対する実現タスクの複雑感のギャップを評
価?
34. What makes BP BP?
● 高い「実現困難性の解決」
● 「使える」感
● 「顕著な結果」の良さ
● Simple Idea, High performance
● 但しこれらはImpactableにする付加的な要素(論文を通すという視点では)
● Area chairの好みも影響
35. 結論
● Performance is required, anyway.
○ CVトップ会議に通すなら「良い数値」が絶対
○ フレームワーク提案だろうと「良い数値」
○ 「数値が低いのでReject」は不可避
● 「良い問題」で論文は通らないが,Impactable
○ Blue ocean. Red ocean=性能+超スピード勝負
● 「良い数値」+「実現困難を実現」+「使える」(+好み)=Best Paper