SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Performance is not all you need
- CV分野における論文への要求 -
cvpaper.challenge meta-study 2020
山本(早大),鈴木亮太(産総研),松藤(都立大)
趣旨
● CV分野のトップ会議はパフォーマンス向上のコンペ?           →数値を競いた
いだけならkaggleでいいのでは?
● 問題設定は面白いが数値に繋がらない研究は評価されない?
● 以前行ったCHIサーベイ2018において,CV分野とCHI分野の違いを調査  →CV分
野:特にパフォーマンスの有無を(絶対的に)問う, HCI:それは必須ではない
● CVにおいても「パフォーマンスの有無が評価に決定的でない論文があるのではな
いか?」
本勉強会では,トップ会議採択論文の「パフォーマンスの有無」に着目し,
上手な論文執筆や問題発見の方法論を見出すことを目的とする.
問題点 - 理想
CVPR2020の査読ガイドライン
http://cvpr2020.thecvf.com/submission/main-conference/reviewer-guidelines
What to Look For
Each paper that is accepted should be technically sound and make a contribution to the field.
Look for what's good or stimulating in the paper. We recommend that you embrace novel, brave
concepts, even if they have not been tested on many datasets. For example, the fact that a
proposed method does not exceed the state-of-the-art accuracy on an existing benchmark
dataset is not grounds for rejection by itself. Rather, it is important to weigh both the novelty
and potential impact of the work alongside the reported performance. Minor flaws that can be
easily corrected should not be a reason to reject a paper.
SOTA超越の有無だけでは
Rejectの理由にならない
新規性・波及効果
と
パフォーマンス
の両輪
問題点 - 現実
Less performance, Less contribution (for easy reviewers)
> Accuracy / Computational speed
● DLというノウハウの科学の段階にあって,失敗はコントリビューションにならない
● トップ会議採択論文の多くが,「数値評価が向上した」「先行研究ができないことを
可能とした」など,性能向上を主張
● 査読ガイドラインでは「SOTAでないことはrejectの理由にならない」と書かれている
が,実際の査読では数値性能に対する指摘が行われている
目的
● 問題設定が特に優れている(=パフォーマンス以外に優位性がある)と考えられる
,CVPR/ICCV/ECCVのBest Papersを調査
● 調査結果を通じて,CV分野におけるパフォーマンスの有無の重要性を議論
● パフォーマンスの有無以外に評価される項目が何かを議論
● 問題設定が優れているがパフォーマンスが十分でない場合,どのように論文を執
筆していくべきかを議論
コンテンツ
● CV分野の Best Papers まとめ
○ CVPR2018, ECCV2018, CVPR2019, ICCV2019
● その他論文Pickup
● Best Papersを元とした「Is performance all you need?」に対する考察
● その他議論
Best Papers
Taskonomy: Disentangling Task Transfer Learning
Amir R. Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese
Abstract
法線推定と深度推定のように,タスク同士の関連
性に関する研究.ソースタスクで学習した Encoder
を用いて別のタスクを学習することで,タスク間の
転移のしやすさを調査した.
CVPR2018 Best Paper
Teaser
Status
● 分野:Machine Learning
● Performance?:Not
●
●
Comment
実験には47,886GPU時間要したと有る通り,マシ
ンパワーで殴る研究.
「タスク間の関係性」という誰でも気になるが実験
に手が出なかった領域を埋めた好例.
Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
Hanbyul Joo, Tomas Simon, Yaser Sheikh : CMU
Abstract
マルチビュー前提,3D形状モデルベースで,マー
カレスで人のパーツレベルの位置合わせ.表情や
手指のポーズまでやるのがスゴイ.多視点ステレ
オで面を取って3D形状モデルのICP位置合わせを
行うが,SMPLは体レベルは出来ているのに対し,
こちらは表情と手指も更に追加.更に髪,服まで位
置合わせの対象にする.
CVPR2018, Best Student Paper
SMPL
Status
● 分野:3D Deformation
● Performance?:Not
Comment
OpenPoseのチームの学生の論文.数値的ではな
い(もはやtrivial)
指が曲がっていない.
+表情+手指 +髪+服
Deep Learning of Graph Matching
Andrei Zanfir and Cristian Sminchisescu : Institute of Mathematics of the Romanian Academy
Abstract
タイトル通り.深層学習に落とし込むための理論の
提供が貢献.グラフマッチングは実にあらゆる所で
使われる基礎であり,需要が高い.
CVPR2018, Honorable mention
Status
● 分野:Machine Learning
● Performance?:Not
●
●
Comment
Taskonomy無ければBPだったのでは?
ICML,ICLRではないのは投稿時期?
ソース
ターゲットと
結果
真値
キーポイント推定タスクに適用した例
SPLATNet: Sparse Lattice Networks for Point Cloud Processing
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz
Abstract
DNNで3D点群処理する時の共通課題は,点間距
離などのリーズナブルなジオメトリの定義方法にな
るが,こちらは特徴空間上で格子に乗せた上で畳
みこむのが特徴.格子に乗っていれば隣接関係は
明確なので普通に畳み込める.※この論文での特
徴は(XYZRGB)
CVPR2018, Honorable mention
Status
● 分野:3D
● Performance?:Yes
●
●
Comment
この時は3D点群のDNNによる処理の方法論の探索フェー
ズにあった.目的はパフォーマンスだが,課題がちゃんと見
えていること,それに対するStraight forwardな解決方法を
思いついて実現したことが成功した理由と思われる.
CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM
Michael Bloesch, Jan Czarnowski, Ronald Clark, Stefan Leutenegger, Andrew J. Davison : Imperial College
London
Abstract
点ではなく面データで位置合わせするのでマップ
が密になる利点がうれしい DenseSLAMにおいて,
ストレートにやるとやはり表現が重すぎる!という
共通課題に対し,Deepの力を使って適切な幾何
表現の符号化をしてあげることで効率的な SLAM
が行えるようにした.
CVPR2018, Honorable mention
Status
● 分野:SLAM
● Performance?:Yes
●
●
Comment
(ロングランだが)流行のDenseSLAMに対する方策の一
つ.ロボット分野の会議だとこういうのがバンバン出ている
印象.こういうコーディングは位置合わせ業界では複数出て
いるし注目度も高い.SLAMだと精度と処理効率が同等に重
要視される.
コード化の例.上下で見比べると同じ場所に同様のコードが付与されている.
Abstract
検索タスクで使われる種々のランキングロス関数
には分解不可能なものが多く,計算効率が良くで
きない.そういうのでも効率的に最適化できるク
イックソート的な分割統治アルゴリズムを提案.適
用可能条件も示した.
Efficient Optimization for Rank-Based Loss Functions
P. Mohapatra, M. Rolínek, C.V. Jawahar, V. Kolmogorov and M.P. Kumar
CVPR2018, Honorable mention
Status
● 分野:Machine Learning
● Performance?:No
●
●
Comment
理論的裏付けは応用的気風のあるCVにおいては注目度が
高いと思う.全文読むのはちょっと大変だが,論文として優
れており,汎用的課題のアピールもうまい.
NO IMAGE
GANimation: Anatomically-aware Facial Animation from a Single Image
Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer
Abstract
Action Unitの強度をコンディションとして与えること
で,入力画像の表情を Action Unitで指定した表情
に変更する手法を提案.アテンションマスクが反応
した部分のみを編集することで,背景変化などに
頑健.学習にはAction Unitのアノテーションがつい
た画像のみを用いる.
Teaser
Status
● 分野:Facial Animation, GAN
● Performance?:Yes
●
●
Comment
連続的な表情変化が可能,背景に頑健など汎用
性の高さが評価された?
ECCV2018
Honorable Mention
Group Normalization
Yuxin Wu, Kaiming He
Abstract
DNNで広く用いられるBatch Normalizationは,
バッチサイズが小さくなると誤差が大きくなるという
問題があった.それに対して,バッチサイズが小さ
くても有効な正規化手法である Group
Normalizationを提案.
Teaser
Status
● 分野:Deep Learning
● Performance?:Yes
●
●
Comment
CVの問題を扱うのではなく, CVの問題を解くツー
ルであるDNNのモジュールを提案.
特定のタスクに特化しているわけではないので,
分野全体への貢献が大きい?
ECCV2018
Honorable Mention
Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
Martin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebel
Abstract
RGB画像を入力として物体検出及び 6D姿勢検出
を行う.シミュレーションした 3Dモデルを用いて
オートエンコーダを学習することで,リアルデータを
必要とせずに学習することを可能とした.
Teaser
Status
● 分野:6D pose estimation
● Performance?:Yes
●
●
Comment
合成データによって学習をしたにも関わらず SOTA
というのが評価された?
特に3次元データの場合実データを集めるのが大
変なため評価が高い?
ECCV2018
Best Paper
A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, ,Ioannis
Gkioulekas
Abstract
カメラの視界に映らない, Non-Line-of-Sigh(NLOS)物
体を周辺環境での反射を用いて復元する研究.
この論文では,カメラ視野に映る他物体に反射する光
子とNLOS物体表面の反射の関係性から,
幾何的な制約条件を発見し,それに基づいて NLOS物
体の3D表面の復元に成功.
Teaser
Status
● 分野:Non-Line-of-Sight
● Performance?:Yes
● 精度でビンタだが,幾何学的な法
則性の発見は面白い
Comment
先行研究が音響などを補助として使用していたのに対し,古
典的な幾何学の応用により
実現した.
光を送信するレーザを用いることで実現するため自動運転,
医療画像にも応用可能.
このネタでNatureにも通している.
CVPR2019 Best Paper Award
Learning the Depths of Moving People by Watching Frozen People
Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman and Noah Snavely.
Abstract
RGB入力からの人の深度推定を行う研究. Kinectは
屋外で使えないので,深度推定用のデータセットは少
なかった.2016年に流行ったマネキンチャレンジ動画
(カメラが動いて,人が静止)を用いて,人を静止物と
して扱い,従来の深度推定手法 (SfM)を用いて大量
データセットを作成.
Teaser
Status
● 分野:深度推定,データセット
● Performance?:No (性能も示して
いるが,データセット作りが主題)
Comment
マネキンチャレンジ動画に着目して教師ありデータ
セットを作成するという斬新なアイデアと,実際に
そのデータセットを用いて人の深度推定を行いモ
デルの性能も示している.
CVPR2019 Best Paper Honorable Mention
A Style-Based Generator Architecture for Generative Adversarial Networks
Tero Karras, Samuli Laine, Timo Aila
Abstract
1024×1024の高解像度の画像生成を行う研究.
GANの層を段階的に増やして安定的に高解像度を扱
う工夫と,解像度ごとに潜在表現ベクトルを用意する
ことで解像度の段階的に分離して制御ができる.顔画
像であれば,顔全体,目などの部分に焦点をあてるこ
とができる.
Teaser
Status
● 分野:画像生成,スタイル変換
● Performance?:Yes
● 生成画像の「制御」の柔軟性に着
目している.
Comment
先行研究であるStyle-Transferに用いられるAdaIN
のアイデアを取り入れ,制御可能な画像生成を目
指している.解像度ごとに分離して制御できる構造
,ランダムノイズを各特徴マップに付与し,顔のシ
ワなどを確率的に表現.
CVPR2019 Best Paper Honorable Mention
SinGAN: Learning a Generative Model from a Single Natural Image
Tamar Rott Shaham, Tali Dekel, Tomer Michaeli
Abstract
GANといえば分布のサンプルを多く見せて分布を
再現するように学習するし,画像だったら同種の画
像を多く見せるわけだが, SinGANではSingle画像
だけが学習データである.画像のパッチをランダム
に切り出してGANに流し,その画像の intrinsic
distirbutionを捉えるという思想.超解像やアニメー
ションができる.
ICCV2019 Best Paper
Status
● 分野:GAN
● Performance?:Not
Comment
まず画像一枚が学習データという驚きがある.さら
に,結果がきれいという驚きがある.これは GANで
今まで実現できていなかった.
Asynchronous Single-Photon 3D Imaging
Anant Gupta, Atul Ingle, Mohit Gupta : University of Wisconsin-Madison
Abstract
ピコ秒レベルの精密高速計測で光子の航続時間
(ToF)を捉えるSPADという新しめのToFセンサが注
目されているが,太陽光下ではうまく計測できな
い.そこで,環境光下でもできる枠組みを提案.通
常,射光と受光(シャッター開口)のタイミングを合わ
せるが,これをずらすことで,そもそも環境光が積
み重ねられるという状況を回避する.
ICCV2019 Honorable mention
Status
● 分野:3D計測
● Performance?:Yes
Comment
現象的にそもそもうまくいく方法を掘れている.
明らかな問題に対し,明らかな解法で望み,明らか
な結果を出している.
SPADは受光ギリ手前のタイミングでシャッター空けるとピーク計測しやすい.
射光-受光のタイミングをずらしながら複数試行&統合で綺麗なピークになる.
Gated2Depth: Real-Time Dense Lidar From Gated Images
Tobias Gruber, Frank Julca-Aguilar, Mario Bijelic, Felix Heide : Daimler, Algolux, Ulm University, Princeton
University
Abstract
密に実時間で3D計測を実現する,レーザ +高速
シャッタカメラ(Gated camera),ステレオカメラ
,LiDARのコンポーネントによる車載計測システ
ム.密なデプス画像を 3センサのデータから UNetで
生成.学習時には合成データも使う.
ICCV2019 Honorable mention
Status
● 分野:3D計測
● Performance?:Yes
Comment
The企業.流行りもの集めた感じ.
Robust Change Captioning
Dong Huk Park, Trevor Darrell, Anna Rohrbach
Abstract
同シーンの2枚の画像A,Bの前後の変化を文章で
出力するタスクChange Captioningについて,
ちょっとカメラが移動するとか環境の照度変化が
あっても頑健にできるようにした. CNN特徴の引き
算A-B=Dを連結したベクトルAD,BDで,Spatial
Attention(Dual Attention).文章化でも,AとBとD
でのAttention機構によるRNNで文章出力.
ICCV2019 Best Paper Nominee
Status
● 分野:Vision and Language
● Performance?:Not
Comment
AreaChairウケが良かった?
やっていることはシンプルに感じるので,シンプル
さに対する実現タスクの複雑感のギャップを評
価?
Other PickUps
A Step Toward Quantifying Independently Reproducible Machine Learning
Research
Edward Raff
Abstract
機械学習論文の再現性について, 255本の論文を
追実装することで調査した研究.実験結果が再現
できたか否かと,論文の出版年や論文の中身
(ページ数や図表の数 )との関係性を調べた. 255
本のうち,実験結果を再現できたのは 162本.
NeurIPS2019
Teaser
Status
● 分野:Machine Learning
● Performance?:Not
●
●
Comment
255本も追実装をしたというのがすごい.
機械学習研究の再現性についての問題提起は近
年盛んに行われているが,論文の出版年とは相関
がなく,昔から存在している問題であると分かっ
た.
Thinking Outside the Pool: Active Training Image Creation for Relative Attributes
Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, ,Ioannis Gkioulekas
Abstract
教師あり学習においてラベルありの画像データとその
取得の難しさのボトルネックに対する研究.
現在のモデルでは不得意な(学習時のラベル付き
データの少ないドメイン)画像を作り,人間のアノテー
タに提示するフレームワークを作成.
生成画像についての解析も行っている.
Teaser
Status
● 分野:アノテーション補助
● Performance?:Yes(SOTA的ではな
い)
●
Comment
オープンワールド問題に近い問題設定で,
ドメインに関する関連研究は多数あるものの,
能動的に画像を生成してアノテータに渡すフレー
ムワークを提案.
CVPR2019
Abstract
Deepfakeなど,CNNによって合成された画像は本物の画像
と見分けがつくかを分析した研究.StyleGANやBigGANなど
により生成された画像を収集し,本物か合成かを識別する
モデルを学習.1つの生成モデル(ProGAN)により学習した識
別器は,学習に用いなかった他の生成モデルを含めた合成
画像を識別可能なことが分かった.
Teaser
Status
● 分野:Image Synthesis
● Performance?:Not
●
●
Comment
Deepfakeは技術の悪用が懸念されているため,社会的に
関心の高い話題であると言える.
技術的に新しいことはないが,多くの生成モデルを対象に画
像を集めており,実験が充実している.
CNN-generated images are surprisingly easy to spot… for now
Sheng-Yu Wang, Oliver Wang, Richard Zhang, Andrew Owens, Alexei A. Efros
CVPR 2020
Is performance all we need?
Is performance all we need?
A. Performance is required, anyway.
● パフォーマンスは評価のひとつだが,
エンジニアリングでは最終目標
○ 結局パフォーマンスは求められる
● 論文数増加の影響.
論文数飽和すれば,
パフォーマンスの高い論文だけ生き残る
○ レビューに時間がかけられない
○ 分かりやすい「評価」がなければ論文評価ができない
■ 学生レビュアーの参入も影響?
○ 採択容量に対して「高パフォーマンス」が飽和する 問題設定
パフォーマンス
Inevaluable
論文数
Impac
table
Impactable?
Acceptable
Competition
論文数
Impac
table
パフォーマンス と 数値評価
● CVでは:
 ● パフォーマンスは(ほぼ)絶対的な最終目標(エンジニアリングなので)
 ● パフォーマンス≒数値評価
○ パフォーマンス評価 ≒「いわゆるAccuracy(従来の評価指標による)」の評価
● 一般的なパフォーマンスの評価項目
○ 精度,正解率,計算時間,メモリ量, …
● 「いわるゆAccuracy」に依らないパフォーマンス?
○ ユーザビリティ,ユーティリティ,ユーザエクスペリエンス > CVのターゲットではない
● 定性評価
○ 数字では測れない「いわゆる Accuracy(従来の評価指標による)」の評価
○ CG系の綺麗さ評価など
■ CVだとGANなどの画像生成系?
数値評価が比較的絶対的でないケース
● フレームワーク提案
○ ユーティリティの評価
● データセット提案
○ ユーティリティの評価
■ 現存のタスクに対する性能評価
■ ベースライン手法の提案
■ タスクの提案
○ Pascal VOCやImageNetなどは発表後何年かしてから受賞
■ 後から有用性が理解される?
● タスク提案
○ 「いわゆるAccuracy(新しい評価指標による )」
○ 適用範囲の表示
それでも何かしらの
「良い数値」は見せる
べき
数値が悪かったらどうする?
● 他の「パフォーマンス」を主張する
○ =問題設定
○ 効果的な執筆が必要
○ 分野が違うかもしれない?
● とにかく良い数値を出す(プレゼンテーションとして必須レベル)
○ 適した評価指標がある可能性?
○ もっと色々試す,チューニングに命を懸ける,
● 逆に悪い数値を示すのが目的かもしれない?=問題設定
○ 例:データセットの悪さ,手法の悪さ(バイアス)の「説明」
○ 「それも改善しろ」とならないか考える
● CVでないところに出す
○ その評価が嬉しい分野がある可能性
○ とりあえずCVに出すにしても,複数の選択肢を用意しておきたい
「良い問題設定」への固執はやめるべき?
● 「良い問題設定」はケースによって異なる
● 「論文に通る問題設定」≠「良い問題設定」
○ とにかく数通すだけならパフォーマンス優先になる
● 良い問題設定がImpactableになりうる!
○ 問題設定の発展は考えにくい.息の短いテーマ
○ 考えうるテーマはRed ocean=性能+超スピード勝負
● 研究アイデアに対してGoを出す判断基準?
○ Issue <= 弱めでも通る
○ Method <= Technical Contributionが無いと超通りにくい
○ Evaluation <= 数値が高くないと超通らない
問題設定
パフォーマンス
Inevaluable
Impac
table
Impactable?
Acceptable
Competition ムリ
発展
What makes BP BP?
● 高い「実現困難性の解決」
● 「使える」感
● 「顕著な結果」の良さ
● Simple Idea, High performance
● 但しこれらはImpactableにする付加的な要素(論文を通すという視点では)
● Area chairの好みも影響
結論
● Performance is required, anyway.
○ CVトップ会議に通すなら「良い数値」が絶対
○ フレームワーク提案だろうと「良い数値」
○ 「数値が低いのでReject」は不可避
● 「良い問題」で論文は通らないが,Impactable
○ Blue ocean. Red ocean=性能+超スピード勝負
● 「良い数値」+「実現困難を実現」+「使える」(+好み)=Best Paper
Discussion
論文のテンプレートの絶対性
● テンプレートやマナーから外れた書き方をすると,ほとんど落ちる
○ 「読みにくいのでStrong Reject」というレビュアーが少なくない
○ 一人でもマイナス評価が付くと採択率が非常に下がる
○ 「良い数値」というテンプレート
● 論文の平均化
○ 採用する評価指標・方法,許容される前提条件,比較対象の研究,データセット
○ 分野に対しての平均化が必要.分野ごとのマナーが存在
● メタ的な論文の調査,論文構成の戦略性が求められる!メタサーベイしよう
○ cvpaper.challengeではメタサーベイを展開しています
■ AIの公平性
■ Adversarial Examples分野の動向
■ etc.
無視されている「数値評価」の雑さ
● 再現性が無い,無くなっていく
○ Caffe vs TensorFlow vs PyTorch vs … で数値が異なる,初期値に鋭敏すぎ,
○ データセットから元データが消えていく
■ Flickrユーザが画像を消す,等
○ 比較対象としての信頼性の担保無し
● 誤差の範囲内では?
○ 問題提起されつつも Top5 accuracy で評価し続ける(Top1 accuracyでないと実用的でない)
○ 代表値がChampion case > たまたまでは?
■ N epoch内での最大値の報告
○ もはや初期値・ハイパーパラメータ調整の領域では?
■ Kagglerのいるチームだけ通るようになる?
● 特定の使用方法での評価の低さの無視
○ 多クラス認識において,あるクラスの数値が低い けどそれって実用上問題では?
愚痴
再現性
● パフォーマンス,数値評価が優先項目なら再現性は基礎だが…
● 先行研究との比較が必要な一方で,論文中で報告されている結果が再現できない
ことがある
○ 先述論文[E. Raff, NeurIPS2019]は3割が再現不可能と報告
● 論文だけでなくコードの提出や,チェックリストの作成などの試みが行われ始めてい
る
CVPR2020 author guidelineより
失敗
● HCIはすでに「人々の方法論」というベースがある.これを評価するので「ダメなこ
と」を示す意味がある
● CVでは今までにない手法がダメなことを評価するのは無意味(ノウハウ的)
○ エンジニアリングなので.
○ サイエンスでは価値を認める分野は多いが …
● 成功は運
○ 例)当てるまで超がんばる.失敗は全部捨てる.
● 失敗の評価を取り上げるマイナーな動きもあるが…
○ 過去のCVPRにおいて,失敗に焦点を置いた WSが開催
http://negative.vision/
「なぜかわからないけど数値がよかった論文」が許され
る理由
● DNNの説明性の低さ
○ ニューロンのつなぎ方レベルのハイパーパラメータの探索の段階
■ 宇宙の探索的.物理,化学的
■ 失敗領域の探索・解明もすべきでは?
> Aberration study の存在.但し成功例引くまで採択されない
○ どれが成功するか分からない
○ 成功しても「なぜ」が説明できない・しにくい
● 但し,理論的な証明がマナーである分野では許されない傾向
○ i.e.) Adversarial Examples
低スペック置き去り説
A. 置き去り
● 高スペック環境でのベースラインが必要
● 低スペック用設定でも高スペックで実験したほうが速い・早い
○ i.e.) 低スペック設定の MobileNet は Google
● CVに限らなければリーズナブルに分散できる(ロボット系等)
● 超大規模計算インフラを使おう!
○ 産総研ABCI
○ 東工大Tsubame
似たような研究が複数採択される理由
● パフォーマンス向上が目的に
○ 先行研究の性能向上など,問題設定が安直になる
○ 同じタスクに複数のグループが取り組むことになる
○ その結果,同時に投稿されてしまうと両方採択せざるを得ない?
● データセット構築の労力
○ DNNにおいてデータセットは極めて重要となる
○ 大規模データセット構築は多大の労力を要するため,既に公開されているデータセットを用いて研
究せざるを得ない?
○ 既存データセットでないと公平な比較ができない?
戦い方
● 体力・チームワーク使う系
● 置いて行ってる問題のケア,逆問題
○ Human action recognition without human ― 認識問題における背景依存性の高さを示唆
● 残念ながら運なのでいっぱい出す
○ レビュワーガチャ.提案した問題設定が好きな人が揃ったら通る可能性が高まる
○ 質の高さは採択確率を上げる(上がるだけ)
● 評価論文から新しい手法を考える
● とにかくパフォーマンス全振りで突き進む
○ 究極系:CUHK/Sensetimeチーム
● Industryなネタのフィールドに行く
○ 農業,工場データ…

Contenu connexe

Dernier

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Dernier (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

En vedette

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

En vedette (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

Performance is not all you need -CV分野における論文への要求-

  • 1. Performance is not all you need - CV分野における論文への要求 - cvpaper.challenge meta-study 2020 山本(早大),鈴木亮太(産総研),松藤(都立大)
  • 2. 趣旨 ● CV分野のトップ会議はパフォーマンス向上のコンペ?           →数値を競いた いだけならkaggleでいいのでは? ● 問題設定は面白いが数値に繋がらない研究は評価されない? ● 以前行ったCHIサーベイ2018において,CV分野とCHI分野の違いを調査  →CV分 野:特にパフォーマンスの有無を(絶対的に)問う, HCI:それは必須ではない ● CVにおいても「パフォーマンスの有無が評価に決定的でない論文があるのではな いか?」 本勉強会では,トップ会議採択論文の「パフォーマンスの有無」に着目し, 上手な論文執筆や問題発見の方法論を見出すことを目的とする.
  • 3. 問題点 - 理想 CVPR2020の査読ガイドライン http://cvpr2020.thecvf.com/submission/main-conference/reviewer-guidelines What to Look For Each paper that is accepted should be technically sound and make a contribution to the field. Look for what's good or stimulating in the paper. We recommend that you embrace novel, brave concepts, even if they have not been tested on many datasets. For example, the fact that a proposed method does not exceed the state-of-the-art accuracy on an existing benchmark dataset is not grounds for rejection by itself. Rather, it is important to weigh both the novelty and potential impact of the work alongside the reported performance. Minor flaws that can be easily corrected should not be a reason to reject a paper. SOTA超越の有無だけでは Rejectの理由にならない 新規性・波及効果 と パフォーマンス の両輪
  • 4. 問題点 - 現実 Less performance, Less contribution (for easy reviewers) > Accuracy / Computational speed ● DLというノウハウの科学の段階にあって,失敗はコントリビューションにならない ● トップ会議採択論文の多くが,「数値評価が向上した」「先行研究ができないことを 可能とした」など,性能向上を主張 ● 査読ガイドラインでは「SOTAでないことはrejectの理由にならない」と書かれている が,実際の査読では数値性能に対する指摘が行われている
  • 5. 目的 ● 問題設定が特に優れている(=パフォーマンス以外に優位性がある)と考えられる ,CVPR/ICCV/ECCVのBest Papersを調査 ● 調査結果を通じて,CV分野におけるパフォーマンスの有無の重要性を議論 ● パフォーマンスの有無以外に評価される項目が何かを議論 ● 問題設定が優れているがパフォーマンスが十分でない場合,どのように論文を執 筆していくべきかを議論
  • 6. コンテンツ ● CV分野の Best Papers まとめ ○ CVPR2018, ECCV2018, CVPR2019, ICCV2019 ● その他論文Pickup ● Best Papersを元とした「Is performance all you need?」に対する考察 ● その他議論
  • 8. Taskonomy: Disentangling Task Transfer Learning Amir R. Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese Abstract 法線推定と深度推定のように,タスク同士の関連 性に関する研究.ソースタスクで学習した Encoder を用いて別のタスクを学習することで,タスク間の 転移のしやすさを調査した. CVPR2018 Best Paper Teaser Status ● 分野:Machine Learning ● Performance?:Not ● ● Comment 実験には47,886GPU時間要したと有る通り,マシ ンパワーで殴る研究. 「タスク間の関係性」という誰でも気になるが実験 に手が出なかった領域を埋めた好例.
  • 9. Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies Hanbyul Joo, Tomas Simon, Yaser Sheikh : CMU Abstract マルチビュー前提,3D形状モデルベースで,マー カレスで人のパーツレベルの位置合わせ.表情や 手指のポーズまでやるのがスゴイ.多視点ステレ オで面を取って3D形状モデルのICP位置合わせを 行うが,SMPLは体レベルは出来ているのに対し, こちらは表情と手指も更に追加.更に髪,服まで位 置合わせの対象にする. CVPR2018, Best Student Paper SMPL Status ● 分野:3D Deformation ● Performance?:Not Comment OpenPoseのチームの学生の論文.数値的ではな い(もはやtrivial) 指が曲がっていない. +表情+手指 +髪+服
  • 10. Deep Learning of Graph Matching Andrei Zanfir and Cristian Sminchisescu : Institute of Mathematics of the Romanian Academy Abstract タイトル通り.深層学習に落とし込むための理論の 提供が貢献.グラフマッチングは実にあらゆる所で 使われる基礎であり,需要が高い. CVPR2018, Honorable mention Status ● 分野:Machine Learning ● Performance?:Not ● ● Comment Taskonomy無ければBPだったのでは? ICML,ICLRではないのは投稿時期? ソース ターゲットと 結果 真値 キーポイント推定タスクに適用した例
  • 11. SPLATNet: Sparse Lattice Networks for Point Cloud Processing Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz Abstract DNNで3D点群処理する時の共通課題は,点間距 離などのリーズナブルなジオメトリの定義方法にな るが,こちらは特徴空間上で格子に乗せた上で畳 みこむのが特徴.格子に乗っていれば隣接関係は 明確なので普通に畳み込める.※この論文での特 徴は(XYZRGB) CVPR2018, Honorable mention Status ● 分野:3D ● Performance?:Yes ● ● Comment この時は3D点群のDNNによる処理の方法論の探索フェー ズにあった.目的はパフォーマンスだが,課題がちゃんと見 えていること,それに対するStraight forwardな解決方法を 思いついて実現したことが成功した理由と思われる.
  • 12. CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM Michael Bloesch, Jan Czarnowski, Ronald Clark, Stefan Leutenegger, Andrew J. Davison : Imperial College London Abstract 点ではなく面データで位置合わせするのでマップ が密になる利点がうれしい DenseSLAMにおいて, ストレートにやるとやはり表現が重すぎる!という 共通課題に対し,Deepの力を使って適切な幾何 表現の符号化をしてあげることで効率的な SLAM が行えるようにした. CVPR2018, Honorable mention Status ● 分野:SLAM ● Performance?:Yes ● ● Comment (ロングランだが)流行のDenseSLAMに対する方策の一 つ.ロボット分野の会議だとこういうのがバンバン出ている 印象.こういうコーディングは位置合わせ業界では複数出て いるし注目度も高い.SLAMだと精度と処理効率が同等に重 要視される. コード化の例.上下で見比べると同じ場所に同様のコードが付与されている.
  • 13. Abstract 検索タスクで使われる種々のランキングロス関数 には分解不可能なものが多く,計算効率が良くで きない.そういうのでも効率的に最適化できるク イックソート的な分割統治アルゴリズムを提案.適 用可能条件も示した. Efficient Optimization for Rank-Based Loss Functions P. Mohapatra, M. Rolínek, C.V. Jawahar, V. Kolmogorov and M.P. Kumar CVPR2018, Honorable mention Status ● 分野:Machine Learning ● Performance?:No ● ● Comment 理論的裏付けは応用的気風のあるCVにおいては注目度が 高いと思う.全文読むのはちょっと大変だが,論文として優 れており,汎用的課題のアピールもうまい. NO IMAGE
  • 14. GANimation: Anatomically-aware Facial Animation from a Single Image Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer Abstract Action Unitの強度をコンディションとして与えること で,入力画像の表情を Action Unitで指定した表情 に変更する手法を提案.アテンションマスクが反応 した部分のみを編集することで,背景変化などに 頑健.学習にはAction Unitのアノテーションがつい た画像のみを用いる. Teaser Status ● 分野:Facial Animation, GAN ● Performance?:Yes ● ● Comment 連続的な表情変化が可能,背景に頑健など汎用 性の高さが評価された? ECCV2018 Honorable Mention
  • 15. Group Normalization Yuxin Wu, Kaiming He Abstract DNNで広く用いられるBatch Normalizationは, バッチサイズが小さくなると誤差が大きくなるという 問題があった.それに対して,バッチサイズが小さ くても有効な正規化手法である Group Normalizationを提案. Teaser Status ● 分野:Deep Learning ● Performance?:Yes ● ● Comment CVの問題を扱うのではなく, CVの問題を解くツー ルであるDNNのモジュールを提案. 特定のタスクに特化しているわけではないので, 分野全体への貢献が大きい? ECCV2018 Honorable Mention
  • 16. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images Martin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebel Abstract RGB画像を入力として物体検出及び 6D姿勢検出 を行う.シミュレーションした 3Dモデルを用いて オートエンコーダを学習することで,リアルデータを 必要とせずに学習することを可能とした. Teaser Status ● 分野:6D pose estimation ● Performance?:Yes ● ● Comment 合成データによって学習をしたにも関わらず SOTA というのが評価された? 特に3次元データの場合実データを集めるのが大 変なため評価が高い? ECCV2018 Best Paper
  • 17. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, ,Ioannis Gkioulekas Abstract カメラの視界に映らない, Non-Line-of-Sigh(NLOS)物 体を周辺環境での反射を用いて復元する研究. この論文では,カメラ視野に映る他物体に反射する光 子とNLOS物体表面の反射の関係性から, 幾何的な制約条件を発見し,それに基づいて NLOS物 体の3D表面の復元に成功. Teaser Status ● 分野:Non-Line-of-Sight ● Performance?:Yes ● 精度でビンタだが,幾何学的な法 則性の発見は面白い Comment 先行研究が音響などを補助として使用していたのに対し,古 典的な幾何学の応用により 実現した. 光を送信するレーザを用いることで実現するため自動運転, 医療画像にも応用可能. このネタでNatureにも通している. CVPR2019 Best Paper Award
  • 18. Learning the Depths of Moving People by Watching Frozen People Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman and Noah Snavely. Abstract RGB入力からの人の深度推定を行う研究. Kinectは 屋外で使えないので,深度推定用のデータセットは少 なかった.2016年に流行ったマネキンチャレンジ動画 (カメラが動いて,人が静止)を用いて,人を静止物と して扱い,従来の深度推定手法 (SfM)を用いて大量 データセットを作成. Teaser Status ● 分野:深度推定,データセット ● Performance?:No (性能も示して いるが,データセット作りが主題) Comment マネキンチャレンジ動画に着目して教師ありデータ セットを作成するという斬新なアイデアと,実際に そのデータセットを用いて人の深度推定を行いモ デルの性能も示している. CVPR2019 Best Paper Honorable Mention
  • 19. A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras, Samuli Laine, Timo Aila Abstract 1024×1024の高解像度の画像生成を行う研究. GANの層を段階的に増やして安定的に高解像度を扱 う工夫と,解像度ごとに潜在表現ベクトルを用意する ことで解像度の段階的に分離して制御ができる.顔画 像であれば,顔全体,目などの部分に焦点をあてるこ とができる. Teaser Status ● 分野:画像生成,スタイル変換 ● Performance?:Yes ● 生成画像の「制御」の柔軟性に着 目している. Comment 先行研究であるStyle-Transferに用いられるAdaIN のアイデアを取り入れ,制御可能な画像生成を目 指している.解像度ごとに分離して制御できる構造 ,ランダムノイズを各特徴マップに付与し,顔のシ ワなどを確率的に表現. CVPR2019 Best Paper Honorable Mention
  • 20. SinGAN: Learning a Generative Model from a Single Natural Image Tamar Rott Shaham, Tali Dekel, Tomer Michaeli Abstract GANといえば分布のサンプルを多く見せて分布を 再現するように学習するし,画像だったら同種の画 像を多く見せるわけだが, SinGANではSingle画像 だけが学習データである.画像のパッチをランダム に切り出してGANに流し,その画像の intrinsic distirbutionを捉えるという思想.超解像やアニメー ションができる. ICCV2019 Best Paper Status ● 分野:GAN ● Performance?:Not Comment まず画像一枚が学習データという驚きがある.さら に,結果がきれいという驚きがある.これは GANで 今まで実現できていなかった.
  • 21. Asynchronous Single-Photon 3D Imaging Anant Gupta, Atul Ingle, Mohit Gupta : University of Wisconsin-Madison Abstract ピコ秒レベルの精密高速計測で光子の航続時間 (ToF)を捉えるSPADという新しめのToFセンサが注 目されているが,太陽光下ではうまく計測できな い.そこで,環境光下でもできる枠組みを提案.通 常,射光と受光(シャッター開口)のタイミングを合わ せるが,これをずらすことで,そもそも環境光が積 み重ねられるという状況を回避する. ICCV2019 Honorable mention Status ● 分野:3D計測 ● Performance?:Yes Comment 現象的にそもそもうまくいく方法を掘れている. 明らかな問題に対し,明らかな解法で望み,明らか な結果を出している. SPADは受光ギリ手前のタイミングでシャッター空けるとピーク計測しやすい. 射光-受光のタイミングをずらしながら複数試行&統合で綺麗なピークになる.
  • 22. Gated2Depth: Real-Time Dense Lidar From Gated Images Tobias Gruber, Frank Julca-Aguilar, Mario Bijelic, Felix Heide : Daimler, Algolux, Ulm University, Princeton University Abstract 密に実時間で3D計測を実現する,レーザ +高速 シャッタカメラ(Gated camera),ステレオカメラ ,LiDARのコンポーネントによる車載計測システ ム.密なデプス画像を 3センサのデータから UNetで 生成.学習時には合成データも使う. ICCV2019 Honorable mention Status ● 分野:3D計測 ● Performance?:Yes Comment The企業.流行りもの集めた感じ.
  • 23. Robust Change Captioning Dong Huk Park, Trevor Darrell, Anna Rohrbach Abstract 同シーンの2枚の画像A,Bの前後の変化を文章で 出力するタスクChange Captioningについて, ちょっとカメラが移動するとか環境の照度変化が あっても頑健にできるようにした. CNN特徴の引き 算A-B=Dを連結したベクトルAD,BDで,Spatial Attention(Dual Attention).文章化でも,AとBとD でのAttention機構によるRNNで文章出力. ICCV2019 Best Paper Nominee Status ● 分野:Vision and Language ● Performance?:Not Comment AreaChairウケが良かった? やっていることはシンプルに感じるので,シンプル さに対する実現タスクの複雑感のギャップを評 価?
  • 25. A Step Toward Quantifying Independently Reproducible Machine Learning Research Edward Raff Abstract 機械学習論文の再現性について, 255本の論文を 追実装することで調査した研究.実験結果が再現 できたか否かと,論文の出版年や論文の中身 (ページ数や図表の数 )との関係性を調べた. 255 本のうち,実験結果を再現できたのは 162本. NeurIPS2019 Teaser Status ● 分野:Machine Learning ● Performance?:Not ● ● Comment 255本も追実装をしたというのがすごい. 機械学習研究の再現性についての問題提起は近 年盛んに行われているが,論文の出版年とは相関 がなく,昔から存在している問題であると分かっ た.
  • 26. Thinking Outside the Pool: Active Training Image Creation for Relative Attributes Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, ,Ioannis Gkioulekas Abstract 教師あり学習においてラベルありの画像データとその 取得の難しさのボトルネックに対する研究. 現在のモデルでは不得意な(学習時のラベル付き データの少ないドメイン)画像を作り,人間のアノテー タに提示するフレームワークを作成. 生成画像についての解析も行っている. Teaser Status ● 分野:アノテーション補助 ● Performance?:Yes(SOTA的ではな い) ● Comment オープンワールド問題に近い問題設定で, ドメインに関する関連研究は多数あるものの, 能動的に画像を生成してアノテータに渡すフレー ムワークを提案. CVPR2019
  • 27. Abstract Deepfakeなど,CNNによって合成された画像は本物の画像 と見分けがつくかを分析した研究.StyleGANやBigGANなど により生成された画像を収集し,本物か合成かを識別する モデルを学習.1つの生成モデル(ProGAN)により学習した識 別器は,学習に用いなかった他の生成モデルを含めた合成 画像を識別可能なことが分かった. Teaser Status ● 分野:Image Synthesis ● Performance?:Not ● ● Comment Deepfakeは技術の悪用が懸念されているため,社会的に 関心の高い話題であると言える. 技術的に新しいことはないが,多くの生成モデルを対象に画 像を集めており,実験が充実している. CNN-generated images are surprisingly easy to spot… for now Sheng-Yu Wang, Oliver Wang, Richard Zhang, Andrew Owens, Alexei A. Efros CVPR 2020
  • 28. Is performance all we need?
  • 29. Is performance all we need? A. Performance is required, anyway. ● パフォーマンスは評価のひとつだが, エンジニアリングでは最終目標 ○ 結局パフォーマンスは求められる ● 論文数増加の影響. 論文数飽和すれば, パフォーマンスの高い論文だけ生き残る ○ レビューに時間がかけられない ○ 分かりやすい「評価」がなければ論文評価ができない ■ 学生レビュアーの参入も影響? ○ 採択容量に対して「高パフォーマンス」が飽和する 問題設定 パフォーマンス Inevaluable 論文数 Impac table Impactable? Acceptable Competition 論文数 Impac table
  • 30. パフォーマンス と 数値評価 ● CVでは:  ● パフォーマンスは(ほぼ)絶対的な最終目標(エンジニアリングなので)  ● パフォーマンス≒数値評価 ○ パフォーマンス評価 ≒「いわゆるAccuracy(従来の評価指標による)」の評価 ● 一般的なパフォーマンスの評価項目 ○ 精度,正解率,計算時間,メモリ量, … ● 「いわるゆAccuracy」に依らないパフォーマンス? ○ ユーザビリティ,ユーティリティ,ユーザエクスペリエンス > CVのターゲットではない ● 定性評価 ○ 数字では測れない「いわゆる Accuracy(従来の評価指標による)」の評価 ○ CG系の綺麗さ評価など ■ CVだとGANなどの画像生成系?
  • 31. 数値評価が比較的絶対的でないケース ● フレームワーク提案 ○ ユーティリティの評価 ● データセット提案 ○ ユーティリティの評価 ■ 現存のタスクに対する性能評価 ■ ベースライン手法の提案 ■ タスクの提案 ○ Pascal VOCやImageNetなどは発表後何年かしてから受賞 ■ 後から有用性が理解される? ● タスク提案 ○ 「いわゆるAccuracy(新しい評価指標による )」 ○ 適用範囲の表示 それでも何かしらの 「良い数値」は見せる べき
  • 32. 数値が悪かったらどうする? ● 他の「パフォーマンス」を主張する ○ =問題設定 ○ 効果的な執筆が必要 ○ 分野が違うかもしれない? ● とにかく良い数値を出す(プレゼンテーションとして必須レベル) ○ 適した評価指標がある可能性? ○ もっと色々試す,チューニングに命を懸ける, ● 逆に悪い数値を示すのが目的かもしれない?=問題設定 ○ 例:データセットの悪さ,手法の悪さ(バイアス)の「説明」 ○ 「それも改善しろ」とならないか考える ● CVでないところに出す ○ その評価が嬉しい分野がある可能性 ○ とりあえずCVに出すにしても,複数の選択肢を用意しておきたい
  • 33. 「良い問題設定」への固執はやめるべき? ● 「良い問題設定」はケースによって異なる ● 「論文に通る問題設定」≠「良い問題設定」 ○ とにかく数通すだけならパフォーマンス優先になる ● 良い問題設定がImpactableになりうる! ○ 問題設定の発展は考えにくい.息の短いテーマ ○ 考えうるテーマはRed ocean=性能+超スピード勝負 ● 研究アイデアに対してGoを出す判断基準? ○ Issue <= 弱めでも通る ○ Method <= Technical Contributionが無いと超通りにくい ○ Evaluation <= 数値が高くないと超通らない 問題設定 パフォーマンス Inevaluable Impac table Impactable? Acceptable Competition ムリ 発展
  • 34. What makes BP BP? ● 高い「実現困難性の解決」 ● 「使える」感 ● 「顕著な結果」の良さ ● Simple Idea, High performance ● 但しこれらはImpactableにする付加的な要素(論文を通すという視点では) ● Area chairの好みも影響
  • 35. 結論 ● Performance is required, anyway. ○ CVトップ会議に通すなら「良い数値」が絶対 ○ フレームワーク提案だろうと「良い数値」 ○ 「数値が低いのでReject」は不可避 ● 「良い問題」で論文は通らないが,Impactable ○ Blue ocean. Red ocean=性能+超スピード勝負 ● 「良い数値」+「実現困難を実現」+「使える」(+好み)=Best Paper
  • 37. 論文のテンプレートの絶対性 ● テンプレートやマナーから外れた書き方をすると,ほとんど落ちる ○ 「読みにくいのでStrong Reject」というレビュアーが少なくない ○ 一人でもマイナス評価が付くと採択率が非常に下がる ○ 「良い数値」というテンプレート ● 論文の平均化 ○ 採用する評価指標・方法,許容される前提条件,比較対象の研究,データセット ○ 分野に対しての平均化が必要.分野ごとのマナーが存在 ● メタ的な論文の調査,論文構成の戦略性が求められる!メタサーベイしよう ○ cvpaper.challengeではメタサーベイを展開しています ■ AIの公平性 ■ Adversarial Examples分野の動向 ■ etc.
  • 38. 無視されている「数値評価」の雑さ ● 再現性が無い,無くなっていく ○ Caffe vs TensorFlow vs PyTorch vs … で数値が異なる,初期値に鋭敏すぎ, ○ データセットから元データが消えていく ■ Flickrユーザが画像を消す,等 ○ 比較対象としての信頼性の担保無し ● 誤差の範囲内では? ○ 問題提起されつつも Top5 accuracy で評価し続ける(Top1 accuracyでないと実用的でない) ○ 代表値がChampion case > たまたまでは? ■ N epoch内での最大値の報告 ○ もはや初期値・ハイパーパラメータ調整の領域では? ■ Kagglerのいるチームだけ通るようになる? ● 特定の使用方法での評価の低さの無視 ○ 多クラス認識において,あるクラスの数値が低い けどそれって実用上問題では? 愚痴
  • 39. 再現性 ● パフォーマンス,数値評価が優先項目なら再現性は基礎だが… ● 先行研究との比較が必要な一方で,論文中で報告されている結果が再現できない ことがある ○ 先述論文[E. Raff, NeurIPS2019]は3割が再現不可能と報告 ● 論文だけでなくコードの提出や,チェックリストの作成などの試みが行われ始めてい る CVPR2020 author guidelineより
  • 40. 失敗 ● HCIはすでに「人々の方法論」というベースがある.これを評価するので「ダメなこ と」を示す意味がある ● CVでは今までにない手法がダメなことを評価するのは無意味(ノウハウ的) ○ エンジニアリングなので. ○ サイエンスでは価値を認める分野は多いが … ● 成功は運 ○ 例)当てるまで超がんばる.失敗は全部捨てる. ● 失敗の評価を取り上げるマイナーな動きもあるが… ○ 過去のCVPRにおいて,失敗に焦点を置いた WSが開催 http://negative.vision/
  • 41. 「なぜかわからないけど数値がよかった論文」が許され る理由 ● DNNの説明性の低さ ○ ニューロンのつなぎ方レベルのハイパーパラメータの探索の段階 ■ 宇宙の探索的.物理,化学的 ■ 失敗領域の探索・解明もすべきでは? > Aberration study の存在.但し成功例引くまで採択されない ○ どれが成功するか分からない ○ 成功しても「なぜ」が説明できない・しにくい ● 但し,理論的な証明がマナーである分野では許されない傾向 ○ i.e.) Adversarial Examples
  • 42. 低スペック置き去り説 A. 置き去り ● 高スペック環境でのベースラインが必要 ● 低スペック用設定でも高スペックで実験したほうが速い・早い ○ i.e.) 低スペック設定の MobileNet は Google ● CVに限らなければリーズナブルに分散できる(ロボット系等) ● 超大規模計算インフラを使おう! ○ 産総研ABCI ○ 東工大Tsubame
  • 43. 似たような研究が複数採択される理由 ● パフォーマンス向上が目的に ○ 先行研究の性能向上など,問題設定が安直になる ○ 同じタスクに複数のグループが取り組むことになる ○ その結果,同時に投稿されてしまうと両方採択せざるを得ない? ● データセット構築の労力 ○ DNNにおいてデータセットは極めて重要となる ○ 大規模データセット構築は多大の労力を要するため,既に公開されているデータセットを用いて研 究せざるを得ない? ○ 既存データセットでないと公平な比較ができない?
  • 44. 戦い方 ● 体力・チームワーク使う系 ● 置いて行ってる問題のケア,逆問題 ○ Human action recognition without human ― 認識問題における背景依存性の高さを示唆 ● 残念ながら運なのでいっぱい出す ○ レビュワーガチャ.提案した問題設定が好きな人が揃ったら通る可能性が高まる ○ 質の高さは採択確率を上げる(上がるだけ) ● 評価論文から新しい手法を考える ● とにかくパフォーマンス全振りで突き進む ○ 究極系:CUHK/Sensetimeチーム ● Industryなネタのフィールドに行く ○ 農業,工場データ…