cvpaper.challenge の Meta Study Group 発表スライド
cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2019の目標「トップ会議30+本投稿」「2回以上のトップ会議網羅的サーベイ」
http://xpaperchallenge.org/cv/
7. Haar-like + AdaBoost(Hand-crafted feat.)
7
Rapid Object Detection using a Boosted Cascade of Simple Features
著者 :Paul Viola, Michael Jones
論⽂:CVPR2001(Best Paper)
l 領域の陰影組み合わせ特徴,識別器による取捨選択
• 学習時には無数の陰影パターン/スケールの組み合わせ(左図)を⽣成
– AdaBoostにより識別に良好なパターンを選択
• 識別時にはカスケード型の識別器(右図)を使⽤
– 途中棄却(図中のF)を導⼊することで⾼速化
– 2001年当時のノートPCにてリアルタイムで動作するくらいには⾼速
8. HOG+SVM(Hand-crafted feat.)
8
Histograms of Oriented Gradients for Human Detection
著者 : Navneet Dalal, Bill Triggs
論⽂:CVPR2005
l 勾配ヒストグラムによるアブストラクトな形状表現
1. 画像の⼊⼒,画像正規化
2. 勾配の計算(右の数式参照)
3. 量⼦化ヒストグラムを計算
- セル/ブロックに分割された領域をオーバーラップさせながら計算
4. 過検出を統合(NMS; Non-Maximum Suppression)
5. SVMにより2値識別
- ⼈物か否か
⼊⼒画像と画像勾配,Positive/Negativeの重み付き勾配
9. ICF+Cascade(Hand-crafted feat.)
9
Integral Channel Features
著者 : Piotr Dollarほか
論⽂:BMVC2009
l 多チャンネルから良好な特徴を識別器学習により獲得
1. 画像の⼊⼒
2. 多チャネルの前処理(下図参照)
- Grayscale, ||G||, edges, LUV, Gabor filter, gradient histogram, binary images,
DoG imaegs
3. カスケード型識別器により重み計算
- 有効な特徴量のみを残す
10. DPM+LatentSVM(Hand-crafted feat.)
10
Object Detection with Discriminatively Trained Part Based Models
著者 :Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, Deva
Ramanan
論⽂:TPAMI 2012
l HOGをベース特徴に,全体(Root filter; RT)および部位ごと(Part
filters; PT)の評価をLatent SVMにより判断
画像ピラミッドからRT特徴量と解像
度を上げたPTの特徴量を抽出
PFに対する位置変動の潜在変数をLatent SVMに
より学習,RFも含めて全体の尤度が⾼い領域が
検出領域となる
11. R-CNN(R-CNN)
11
Rich feature hierarchies for accurate object detection and semantic segmentation
(CVPR2014)
著者 : Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
l 深層学習を取り⼊れた初の物体検出モデル,2ステージ物体検出モデルの元祖
1. 画像の⼊⼒
2. 物体候補の探索
- Selective Serchで画像中から領域の候補 (region proposal)を約2,000個抽出
- Selective Search: ピクセルレベルで類似する領域をグルーピングしていく⼿法 (かなり処理時間がかかる)
3. 物体の画像をリサイズし,CNNで特徴抽出
- 全ての物体候補を、CNN (AlexNet)の⼊⼒サイズに合うようにリサイズ
- リサイズした画像をCNN(AlexNet)に⼊⼒し、C特徴を抽出
4. SVMでクラス分類
- CNN特徴量から、SVMでクラス推定。論⽂では、Pascal VOC (20クラス+背景)で検証
- 実験では、全結合層でなくSVMを使った⽅が⾼精度
12. Fast R-CNN(R-CNN)
12
Fast R-CNN (ICCV2015)
著者 : Ross Girshick
l SPP-Netよりもシンプルなプーリング⼿法を提案し,ad hocに解決(multi-task loss)
3. Regions of Interest (RoI) pooling layer
- SPPよりもシンプルな可変プーリング⼿法
- feature map上に矩形を投影し,max poolingすることで固定⻑に変形
4. クラス識別・バウンディングボックス回帰
- RoI poolingした特徴を並列に2つの全結合層に⼊⼒
- Softmaxでクラス識別,詳細なバウンディングボックス回帰
l multi-task loss
- クラス識別誤差とバウンディングボックス回帰誤差を加算
- 同時に学習し,ad hocを解決
20. 最近のSOTA(Latest Algorithm)
20
An Analysis of Scale Invariance in Object Detection - SNIP (CVPR2018)
著者 : Bharat Singh, Larry S. Davis
l 物体のサイズ変動に対応した⼿法
l ImageNetで学習したモデルからのドメインシフトが⼤きい
l COCO2017にてBest student entry
プレ学習時の物体サイズに近いanchorのみを学習
- 3つのスケールで物体候補を算出し,最後に3つの結果をマージ
21. 最近のSOTA(Latest Algorithm)
21
SNIPER: Efficient Multi-Scale Training (NeurIPS 2018)
著者 : Bharat Singh, Mahyar Najibi, Larry S. Davis
l より効率的なマルチスケール学習
l ピクセル処理ではなく,チップ周辺のコンテキスト領域を学習
l ⽣成するチップ数は画像の複雑さに応じて変化
コンテキストに基づいたチップのサンプリング
- 画像中の物体の存在の基づいてチップ(コンテキスト領域)を⽣成
- チップからバウンディングボックスを推定
22. 最近のSOTA(Latest Algorithm)
22
M2Det: A Single-Shot Object Detector based on Multi-Level Feature
Pyramid Network (AAAI 2019)
著者 : Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai, Haibin Ling
l ダウンサンプリングとアップサンプリングを何度も繰り返す
l 処理速度は出ないが,2019年2⽉現在でSOTA
浅い特徴と深い特徴をマージしてマルチスケール化
- アップサンプリング時のfeature mapを同じサイズ同⼠で結合
- 結合したfeature mapから物体検出
56. MPII
56
• 実装が伴った調査研究
– 40+の歩⾏者検出⼿法等を公平な環境で⽐較
• Haar-like/HOGからDEEP特徴まで
– 網羅的な調査がMPIIの強さ
• 特にBenenson⽒の強みか?
R. Benenson, et al. “Ten years of pedestrian detection, what have we learned?,” ECCV 2014 CVRSUAD workshop.
57. MPII
57
• 公開データに対して再アノテーション
– Caltech Pedestrianに対しラベルをクリーンに
– Human Baselineも与えた
• Humanのエラー率は5.6%だったことから疑問を持ち,
改良ラベルで⾏ったら同エラー率は0.88%となった
S. Zhang, et al. “How Far are We from Solving Pedestrian
Detection?,” CVPR, 2016.
Caltech Pedestrian Benchmarkに含まれる
ラベル誤り(左)とボックスのズレ(右)
最先端⼿法と⼈間のベースライン⽐較