You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

Yusuke Uchida
Yusuke UchidaResearch engineer à Mobility Technologies
Mobility Technologies Co., Ltd.
You Only Look One-level Feature
の解説と見せかけた物体検出のよもやま話
株式会社Mobility Technologies
内田 祐介
第7回全日本コンピュータビジョン勉強会
「CVPR2021読み会」(前編)
Mobility Technologies Co., Ltd.
Yusuke Uchida
• -2017年 :通信キャリアの研究所で画像認識・検索の研究に従事
• -2016年 :社会人学生として博士号を取得(情報理工学)
• 2017年- :DeNA中途入社、深層学習を中心とした
コンピュータビジョン技術の研究開発に従事
• 2019年- : Mobility Technologiesへ移籍
自己紹介
2
Twitter: https://twitter.com/yu4u
GitHub: https://github.com/yu4u
Qiita: https://qiita.com/yu4u
SlideShare: https://www.slideshare.net/ren4yu/
Kaggle: https://www.kaggle.com/ren4yu
Mobility Technologies Co., Ltd.
みんな大好きYOLO!
You Only Look One-level Feature (YOLOF)
3
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
4
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
5
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
6
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
7
↓Ultralytics CEO
v4論文
AlexeyAB/darknet の issue
Mobility Technologies Co., Ltd.
https://www.kaggle.com/c/global-wheat-
detection/discussion/172436
YOLOv5のablation study by @hirotomusiker
8
Mobility Technologies Co., Ltd.
PP-YOLO: PaddlePaddle版YOLO
• X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation
of Object Detector," in arXiv, 2020.
• X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv,
2021.
Scaled-YOLOv4
• C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling
Cross Stage Partial Network," in Proc. of CVPR, 2021.
• https://github.com/WongKinYiu/ScaledYOLOv4
YOLOR
• C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation:
Unified Network for Multiple Tasks," in arXiv, 2021.
• https://github.com/WongKinYiu/yolor
YOLO*?
9
Mobility Technologies Co., Ltd.
論文のIntroはエモいのにめっちゃdetection結果推し
YOLOR
10
Mobility Technologies Co., Ltd.
そういえばYOLOFでした
11
Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.
Mobility Technologies Co., Ltd.
Feature Pyramids Networks (FPN) はマルチスケールの特徴を融
合することにより性能が向上していると思われているがポイントは
そこやないで
物体検出における最適化問題を(multi-scaleのアンカーを使うこと
で)分割統治的に解いているところが一番ポイントやで
でもマルチスケールの特徴を使った検出は複雑かつ低速なので、
single-scaleでmulti-scaleに匹敵する検出器をつくるお!
論文の主張
12
Mobility Technologies Co., Ltd.
YOLOFは
ちなみに
13
Mobility Technologies Co., Ltd.
YOLOFはYOLOではありません!
ちなみに
14
Mobility Technologies Co., Ltd.
YOLOFはYOLOではありません!
• これまでの前フリは…
こいつはRetinaNetです
• ちなみに何を持ってYOLOだ、RetinaNetだというのは個人的に好きな議論
• 意味はないけど
• BackboneがDarknetならYOLO?
• 後述のアンカーがkmeansで作られていたらYOLO?
• Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで
bboxとclass分類が別々のbranchになってたらRetinaNet?
• Loss? 後述のAnchor matchingの手法?
ちなみに
15
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
16
https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
17
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
18
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
出力層付近の特徴を入力層付近の特徴へと徐々に統合することで
特徴の強さと特徴マップの解像度を両立
Feature Pyramid Network (FPN)
19
T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid
Networks for Object Detection," in Proc. of CVPR, 2017.
特徴の強さ:強
解像度:低
e.g. Faster R-
CNN, YOLO
特徴の強さ:弱
解像度:高
e.g. SSD
特徴の強さ:強
解像度:高
FPN
Nearest neighbor
で解像度調整
1x1でチャネル数調整
Mobility Technologies Co., Ltd.
エッジ等のlow-levelの情報をネットワーク全体に伝播させる
Path Aggregation Network (PANet)
20
S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR,
2018.
Backbone FPN Bottom-up path
low-levelの特徴の伝播に
100 layerくらい必要
‘short cut’ path
を作ってあげる
Mobility Technologies Co., Ltd.
エッジ等のlow-levelの情報をネットワーク全体に伝播させる
Path Aggregation Network (PANet)
21
S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR,
2018.
Backbone FPN Bottom-up path
low-levelの特徴の伝播に
100 layerくらい必要
‘short cut’ path
を作ってあげる
3x3 conv
stride=2
3x3 conv
Mobility Technologies Co., Ltd.
PANetを簡略化、同一解像度のskip connection、
top-down+bottom-upを1モジュールとして繰り返す
(単一モジュールとして考えることで簡略化が可能に)
Bi-directional Feature Pyramid Network (BiFPN)
22
M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
PANetを簡略化、同一解像度のskip connection、
top-down+bottom-upを1モジュールとして繰り返す
(単一モジュールとして考えることで簡略化が可能に)
Bi-directional Feature Pyramid Network (BiFPN)
23
M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
24
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている
• Anchor: 特定の条件の物体のみを検出する部品
• Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9
Anchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる
• 各Anchorがどういうサイズの物体を検出すべきか(&検出すべきでないか)
Anchor
25
Anchor1の
クラス信頼度
(K channels)
Anchor1の
検出したbbox
(x, y, w, h)
RetinaNetのHead
AnchorAの
検出したbbox
(x, y, w, h)
AnchorAの
クラス信頼度
(K channels)
… …
Mobility Technologies Co., Ltd.
Anchorとのmatchingとは、ground truth (GT) の各objectを
どのAnchorが検出すべき(&すべきでない)かを決めるプロセス
• これにより特徴マップのどこにどういうロスをかけるかが決まる
RetinaNetでは…
• IoUが0.5以上のAnchorが検出すべき(positive Anchor)
• IoUが0.4以下のAnchorは検出すべきではない(negative Anchor)
• どちらでもないAnchorを残すことは重要(個人的意見)
• ギリギリのAnchorにはどちら側のロスをかけることも不適切
手法によってmatching手法にかなり細かい違いがある
• Digging into Sample Assignment Methods for Object Detection
• https://speakerdeck.com/hirotohonda/digging-into-sample-
assignment-methods-for-object-detection
• The devil is in the details…
Anchorとのmatching
26
Mobility Technologies Co., Ltd.
Feature Pyramids Networks (FPN) はマルチスケールの特徴を融
合することにより性能が向上していると思われているがポイントは
そこやないで
物体検出における最適化問題を(multi-scaleのアンカーを使うこと
で)分割統治的に解いているところが一番ポイントやで
でもマルチスケールの特徴を使った検出は複雑かつ低速なので、
single-scaleでmulti-scaleに匹敵する検出器をつくるお!
論文の主張
27
Mobility Technologies Co., Ltd.
(a) と (b) を比較すると、マルチスケールの特徴を融合することによる影響は
そこまで大きくない
(a) と (c)、(b) と (d) を比較するとsingle outputによる性能低下が著しい
色々なNeckを比較
28
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
C5特徴は様々なスケールの特徴を検出する情報を十分に持っている
FPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputに
より実現される分割統治のメリットには遠く及ばない
色々なNeckを比較
29
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
色々なNeckを比較
30
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
Multiple outputは計算量が大きい
じゃあmultiple outputでええやん?
31
(Neck) (Head)
Multiple output
はHeadが重い
Single outputにすると
精度が下がる
Single outputでも精度
が維持できる手法を
提案するお
Mobility Technologies Co., Ltd.
他の論文でも
32
C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small
Object Detection," in arXiv, 2021.
https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object-
detection
Mobility Technologies Co., Ltd.
Multiple outputのHeadが何故重いかというと
33
Neck Head
Backbone
複数スケール間で重み
共有のhead
channel数256
Mobility Technologies Co., Ltd.
Multiple outputのHeadが何故重いかというと
34
Neck Head
Backbone
複数スケール間で重み
共有のhead
channel数256
ResNetのC3特徴の
channel数は128
(計算量は4倍)
Mobility Technologies Co., Ltd.
C5特徴が対応できる物体の大きさが限られている
Positive anchorの不均衡問題
SiSoにおける課題
35
Mobility Technologies Co., Ltd.
RetinaNetではstride-2のconvで作成されたreceptive fieldの大き
な特徴マップP6, P7を利用している
複数の特徴マップを使いたくない病のYOLOFではdilated
convolutionでreceptive fieldを拡大することを提案
Residual構造とすることで小さい物体用も引き続きカバー
単にNW深くしてるだけでは?
C5特徴が対応できる物体の大きさが限られている
36
C5特徴
C5特徴にdilated conv
C5特徴にdilated conv + skip
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
Positive anchorの不均衡問題
37
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
38
32
…
…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
39
32
…
…
この辺にGTの
物体があったと
すると…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
40
32
…
…
この辺にGTの
物体があったと
すると…
この辺のアン
カーがpositive
になる
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
41
32
…
…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
42
32
…
…
この辺にGTの
物体があったと
すると…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
43
32
…
この辺にGTの
物体があったと
すると…
この辺のアン
カー全部が
positiveになる
Mobility Technologies Co., Ltd.
ということが言いたいのが論文のこの図
• 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数
• 縦軸で異なるmatching手法を比較している
この問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive
とすることを提案
Positive anchorの不均衡問題
44
RetinaNet
YOLOF
大きい物体ばっかり
優先的に学習される
Mobility Technologies Co., Ltd.
“we set IoU thresholds in Uniform Matching to ignore large
IoU (>0.7) negative anchors and small IoU (<0.15) positive
anchors.”
特に大きなアンカーはIoUが大きくなるアンカーが大量に出る
• これらに対してnegativeなlossをかけるのはよろしくない
RetinaNet等、複数スケールの特徴を利用する場合、大きな物体を
担当する特徴マップは低解像度で、アンカーは前述のように細かく
配置されていないためこの問題は顕著ではない
ちなみに
45
Mobility Technologies Co., Ltd.
Adaptive Training Sample Selection (ATSS)
• Anchor-basedな手法とAnchor-freeな手法のパフォーマンスの差は
(色々な細かい改善手法と)positive, negative Anchorを定義する
matchingアルゴリズムの差であることを指摘
• 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive,
negativeへアサインするためのしきい値を決定する手法を提案
関連手法
46
S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection
via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
YOLO, YOLOv2はpositiveはbest matchの1件のみ
DETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorと
のmatchingを最適化している
YOLOFはpositiveの個数に着目してバランスすることを目的にして
いる(というexcuse
他にもCVPR’21で、GTとAnchorのassignを最適化する手法が出て
いる
関連手法
47
J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional
Network," in Proc. of CVPR, 2021.
Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object
Detection," in Proc. of CVPR, 2021.
Mobility Technologies Co., Ltd.
NeckとしてC5特徴入力し、P5特徴を出力するdilated convモ
ジュールを利用
1つの特徴マップに全スケールのアンカーを押し込んだRetina Head
を利用
GTからtop-k (k=4) のAnchorをpositiveAnchorとする
YOLOFまとめ
48
Mobility Technologies Co., Ltd.
RetinaNetより同等以上の精度で早い
結果: ベースであるRetinaNetとの比較
49
RetinaNet+: YOLOF実装に合わせたRetinaNet
Mobility Technologies Co., Ltd.
7倍早く収束する!
大きな物体はDETRのほうが得意
結果: 同じC5特徴だけを利用するDETRとの比較
50
Mobility Technologies Co., Ltd.
ちょっと早くてちょっと精度が良い
結果: Single shot detectorと言えば…のYOLO系と比較
51
Mobility Technologies Co., Ltd.
ResBlockは多いほうが良い(が4つで勘弁してやる)
Dilationは2,4,6,8
• 1,1,1,1の精度が悪いので単に深くするだけでは駄目
Residual機構はあった方が良い
• 全スケール良くなっているので元々の複数スケールカバーする云々は…↑
Ablation Study: Neck構造
52
Mobility Technologies Co., Ltd.
Uniformにtop-4が良い
Ablation Study: matching部分
53
Mobility Technologies Co., Ltd.
C5特徴でも小さい物体を検出できる部分は面白い
精度速度のトレードオフを追い求めるという観点では、複数スケー
ルの特徴を使って重くなるのはstride=8, 16のところなので、そこ
だけ使わずにP5-7は使うでよいのではないか
• 複数スケール使いたくない病なら仕方がない
YOLOv3~はstride=8の特徴マップを使っているがweight shared
の重いHeadを使っていないので問題ない
Anchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な手
法があるのでは?
• 高解像度特徴まで効率的に見るようなDETRが全てを解決する?
所感
54
Mobility Technologies Co., Ltd.
資料作成に当たり色々議論してくれた
同僚の @hirotomusiker に感謝!
Acknowledgement
55
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
56
1 sur 56

Recommandé

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 par
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K vues38 diapositives
【メタサーベイ】数式ドリブン教師あり学習 par
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
5.9K vues33 diapositives
モデル高速化百選 par
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
24.7K vues64 diapositives
画像生成・生成モデル メタサーベイ par
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
8.2K vues118 diapositives
Semantic segmentation par
Semantic segmentationSemantic segmentation
Semantic segmentationTakuya Minagawa
111.3K vues43 diapositives
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling par
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
2.9K vues25 diapositives

Contenu connexe

Tendances

全力解説!Transformer par
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.5K vues43 diapositives
【メタサーベイ】Vision and Language のトップ研究室/研究者 par
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
1.8K vues154 diapositives
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs par
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
1.5K vues23 diapositives
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜 par
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
2.9K vues101 diapositives
【メタサーベイ】基盤モデル / Foundation Models par
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
16.4K vues63 diapositives
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis par
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
2.8K vues23 diapositives

Tendances(20)

全力解説!Transformer par Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.5K vues
【メタサーベイ】Vision and Language のトップ研究室/研究者 par cvpaper. challenge
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge1.8K vues
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs par Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
Deep Learning JP1.5K vues
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜 par SSII
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2.9K vues
【メタサーベイ】基盤モデル / Foundation Models par cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.4K vues
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis par Kento Doi
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi2.8K vues
[DL輪読会]Pay Attention to MLPs (gMLP) par Deep Learning JP
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP16.9K vues
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection par Deep Learning JP
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
Deep Learning JP20.8K vues
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) par Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP3.7K vues
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​ par SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII3.2K vues
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習 par SSII
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII4.2K vues
物体検出の歴史(R-CNNからSSD・YOLOまで) par HironoriKanazawa
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa1.6K vues
【DL輪読会】マルチモーダル 基盤モデル par Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP1.1K vues
Skip Connection まとめ(Neural Network) par Yamato OKAMOTO
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO17K vues
畳み込みニューラルネットワークの高精度化と高速化 par Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K vues
【DL輪読会】ViT + Self Supervised Learningまとめ par Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ

Similaire à You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

【チュートリアル】コンピュータビジョンによる動画認識 v2 par
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
4.9K vues67 diapositives
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2... par
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
9.3K vues112 diapositives
semantic segmentation サーベイ par
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
4.8K vues34 diapositives
20120623 cv勉強会 shirasy par
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
1.7K vues16 diapositives
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation par
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
241 vues39 diapositives
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation par
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
1.5K vues39 diapositives

Similaire à You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話(20)

【チュートリアル】コンピュータビジョンによる動画認識 v2 par Hirokatsu Kataoka
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka4.9K vues
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2... par cvpaper. challenge
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge9.3K vues
semantic segmentation サーベイ par yohei okawa
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa4.8K vues
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation par Takumi Ohkuma
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma241 vues
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation par Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP1.5K vues
画像認識と深層学習 par Yusuke Uchida
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
Yusuke Uchida17.5K vues
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演) par cvpaper. challenge
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向 par Hiroshi Fukui
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
Hiroshi Fukui6.4K vues
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2 par Daiki Shimada
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada45.1K vues
Muramatsu Bachelor Thesis par pflab
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
pflab2.6K vues
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation par Kazuyuki Miyazawa
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa1.9K vues
20150414seminar par nlab_utokyo
20150414seminar20150414seminar
20150414seminar
nlab_utokyo26.8K vues
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話 par Sadao Tokuyama
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話SADAO TOKUYAMA の L.E.A.P カンファレンス な 話
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話
Sadao Tokuyama2K vues
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute... par SSII
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2.8K vues
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~ par Kenji Koshikawa
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
Kenji Koshikawa1.2K vues
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東 par Yukiyoshi Sasao
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao2K vues

Plus de Yusuke Uchida

SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution par
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionYusuke Uchida
1.6K vues15 diapositives
SIGNATE 鰹節コンペ2nd Place Solution par
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place SolutionYusuke Uchida
1.7K vues20 diapositives
DRIVE CHARTを支えるAI技術 par
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
2.3K vues44 diapositives
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20) par
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
8.1K vues30 diapositives
Semi supervised, weakly-supervised, unsupervised, and active learning par
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
6.3K vues43 diapositives
Deep Fakes Detection par
Deep Fakes DetectionDeep Fakes Detection
Deep Fakes DetectionYusuke Uchida
4.3K vues20 diapositives

Plus de Yusuke Uchida(20)

SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution par Yusuke Uchida
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
Yusuke Uchida1.6K vues
SIGNATE 鰹節コンペ2nd Place Solution par Yusuke Uchida
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
Yusuke Uchida1.7K vues
DRIVE CHARTを支えるAI技術 par Yusuke Uchida
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K vues
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20) par Yusuke Uchida
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida8.1K vues
Semi supervised, weakly-supervised, unsupervised, and active learning par Yusuke Uchida
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida6.3K vues
モデルアーキテクチャ観点からの高速化2019 par Yusuke Uchida
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida17.7K vues
Humpback whale identification challenge反省会 par Yusuke Uchida
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
Yusuke Uchida13.3K vues
DeNAにおける先端AI技術活用のチャレンジ par Yusuke Uchida
DeNAにおける先端AI技術活用のチャレンジDeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida5K vues
コンピュータビジョン技術の実応用とビジネス par Yusuke Uchida
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
Yusuke Uchida6.2K vues
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear... par Yusuke Uchida
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida13.1K vues
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用 par Yusuke Uchida
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
Yusuke Uchida51.7K vues
畳み込みニューラルネットワークの研究動向 par Yusuke Uchida
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida139.8K vues
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介) par Yusuke Uchida
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
Yusuke Uchida2.8K vues
モデルアーキテクチャ観点からのDeep Neural Network高速化 par Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida38.7K vues
最近のSingle Shot系の物体検出のアーキテクチャまとめ par Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida40.1K vues
Embedding Watermarks into Deep Neural Networks par Yusuke Uchida
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
Yusuke Uchida3.9K vues
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説 par Yusuke Uchida
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
Yusuke Uchida2.3K vues
Overcoming Catastrophic Forgetting in Neural Networks読んだ par Yusuke Uchida
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida2.6K vues
ConvNetの歴史とResNet亜種、ベストプラクティス par Yusuke Uchida
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
Yusuke Uchida11.9K vues

Dernier

01Booster Studio ご紹介資料 par
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料ssusere7a2172
300 vues19 diapositives
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) par
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
13 vues38 diapositives
SSH応用編_20231129.pdf par
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
172 vues13 diapositives
JJUG CCC.pptx par
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 vues14 diapositives
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 par
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 vues34 diapositives
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) par
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
233 vues63 diapositives

Dernier(12)

01Booster Studio ご紹介資料 par ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172300 vues
SSH応用編_20231129.pdf par icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4172 vues
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 par Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) par NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... par NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
Web3 Career_クレデン資料 .pdf par nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo14 vues
The Things Stack説明資料 by The Things Industries par CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.41 vues
さくらのひやおろし2023 par 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之91 vues
SNMPセキュリティ超入門 par mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda175 vues
Windows 11 information that can be used at the development site par Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka71 vues

You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

  • 1. Mobility Technologies Co., Ltd. You Only Look One-level Feature の解説と見せかけた物体検出のよもやま話 株式会社Mobility Technologies 内田 祐介 第7回全日本コンピュータビジョン勉強会 「CVPR2021読み会」(前編)
  • 2. Mobility Technologies Co., Ltd. Yusuke Uchida • -2017年 :通信キャリアの研究所で画像認識・検索の研究に従事 • -2016年 :社会人学生として博士号を取得(情報理工学) • 2017年- :DeNA中途入社、深層学習を中心とした コンピュータビジョン技術の研究開発に従事 • 2019年- : Mobility Technologiesへ移籍 自己紹介 2 Twitter: https://twitter.com/yu4u GitHub: https://github.com/yu4u Qiita: https://qiita.com/yu4u SlideShare: https://www.slideshare.net/ren4yu/ Kaggle: https://www.kaggle.com/ren4yu
  • 3. Mobility Technologies Co., Ltd. みんな大好きYOLO! You Only Look One-level Feature (YOLOF) 3
  • 4. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 4
  • 5. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 5
  • 6. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 6
  • 7. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 7 ↓Ultralytics CEO v4論文 AlexeyAB/darknet の issue
  • 8. Mobility Technologies Co., Ltd. https://www.kaggle.com/c/global-wheat- detection/discussion/172436 YOLOv5のablation study by @hirotomusiker 8
  • 9. Mobility Technologies Co., Ltd. PP-YOLO: PaddlePaddle版YOLO • X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation of Object Detector," in arXiv, 2020. • X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv, 2021. Scaled-YOLOv4 • C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling Cross Stage Partial Network," in Proc. of CVPR, 2021. • https://github.com/WongKinYiu/ScaledYOLOv4 YOLOR • C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation: Unified Network for Multiple Tasks," in arXiv, 2021. • https://github.com/WongKinYiu/yolor YOLO*? 9
  • 10. Mobility Technologies Co., Ltd. 論文のIntroはエモいのにめっちゃdetection結果推し YOLOR 10
  • 11. Mobility Technologies Co., Ltd. そういえばYOLOFでした 11 Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.
  • 12. Mobility Technologies Co., Ltd. Feature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで 物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが一番ポイントやで でもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお! 論文の主張 12
  • 13. Mobility Technologies Co., Ltd. YOLOFは ちなみに 13
  • 14. Mobility Technologies Co., Ltd. YOLOFはYOLOではありません! ちなみに 14
  • 15. Mobility Technologies Co., Ltd. YOLOFはYOLOではありません! • これまでの前フリは… こいつはRetinaNetです • ちなみに何を持ってYOLOだ、RetinaNetだというのは個人的に好きな議論 • 意味はないけど • BackboneがDarknetならYOLO? • 後述のアンカーがkmeansで作られていたらYOLO? • Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで bboxとclass分類が別々のbranchになってたらRetinaNet? • Loss? 後述のAnchor matchingの手法? ちなみに 15
  • 16. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 16 https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html
  • 17. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 17 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 18. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 18 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 19. Mobility Technologies Co., Ltd. 出力層付近の特徴を入力層付近の特徴へと徐々に統合することで 特徴の強さと特徴マップの解像度を両立 Feature Pyramid Network (FPN) 19 T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid Networks for Object Detection," in Proc. of CVPR, 2017. 特徴の強さ:強 解像度:低 e.g. Faster R- CNN, YOLO 特徴の強さ:弱 解像度:高 e.g. SSD 特徴の強さ:強 解像度:高 FPN Nearest neighbor で解像度調整 1x1でチャネル数調整
  • 20. Mobility Technologies Co., Ltd. エッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 20 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ‘short cut’ path を作ってあげる
  • 21. Mobility Technologies Co., Ltd. エッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 21 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ‘short cut’ path を作ってあげる 3x3 conv stride=2 3x3 conv
  • 22. Mobility Technologies Co., Ltd. PANetを簡略化、同一解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単一モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 22 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
  • 23. Mobility Technologies Co., Ltd. PANetを簡略化、同一解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単一モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 23 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
  • 24. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 24 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 25. Mobility Technologies Co., Ltd. 各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている • Anchor: 特定の条件の物体のみを検出する部品 • Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9 Anchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる • 各Anchorがどういうサイズの物体を検出すべきか(&検出すべきでないか) Anchor 25 Anchor1の クラス信頼度 (K channels) Anchor1の 検出したbbox (x, y, w, h) RetinaNetのHead AnchorAの 検出したbbox (x, y, w, h) AnchorAの クラス信頼度 (K channels) … …
  • 26. Mobility Technologies Co., Ltd. Anchorとのmatchingとは、ground truth (GT) の各objectを どのAnchorが検出すべき(&すべきでない)かを決めるプロセス • これにより特徴マップのどこにどういうロスをかけるかが決まる RetinaNetでは… • IoUが0.5以上のAnchorが検出すべき(positive Anchor) • IoUが0.4以下のAnchorは検出すべきではない(negative Anchor) • どちらでもないAnchorを残すことは重要(個人的意見) • ギリギリのAnchorにはどちら側のロスをかけることも不適切 手法によってmatching手法にかなり細かい違いがある • Digging into Sample Assignment Methods for Object Detection • https://speakerdeck.com/hirotohonda/digging-into-sample- assignment-methods-for-object-detection • The devil is in the details… Anchorとのmatching 26
  • 27. Mobility Technologies Co., Ltd. Feature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで 物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが一番ポイントやで でもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお! 論文の主張 27
  • 28. Mobility Technologies Co., Ltd. (a) と (b) を比較すると、マルチスケールの特徴を融合することによる影響は そこまで大きくない (a) と (c)、(b) と (d) を比較するとsingle outputによる性能低下が著しい 色々なNeckを比較 28 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 29. Mobility Technologies Co., Ltd. C5特徴は様々なスケールの特徴を検出する情報を十分に持っている FPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputに より実現される分割統治のメリットには遠く及ばない 色々なNeckを比較 29 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 30. Mobility Technologies Co., Ltd. 色々なNeckを比較 30 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 31. Mobility Technologies Co., Ltd. Multiple outputは計算量が大きい じゃあmultiple outputでええやん? 31 (Neck) (Head) Multiple output はHeadが重い Single outputにすると 精度が下がる Single outputでも精度 が維持できる手法を 提案するお
  • 32. Mobility Technologies Co., Ltd. 他の論文でも 32 C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection," in arXiv, 2021. https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object- detection
  • 33. Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 33 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256
  • 34. Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 34 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256 ResNetのC3特徴の channel数は128 (計算量は4倍)
  • 35. Mobility Technologies Co., Ltd. C5特徴が対応できる物体の大きさが限られている Positive anchorの不均衡問題 SiSoにおける課題 35
  • 36. Mobility Technologies Co., Ltd. RetinaNetではstride-2のconvで作成されたreceptive fieldの大き な特徴マップP6, P7を利用している 複数の特徴マップを使いたくない病のYOLOFではdilated convolutionでreceptive fieldを拡大することを提案 Residual構造とすることで小さい物体用も引き続きカバー 単にNW深くしてるだけでは? C5特徴が対応できる物体の大きさが限られている 36 C5特徴 C5特徴にdilated conv C5特徴にdilated conv + skip
  • 37. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) Positive anchorの不均衡問題 37
  • 38. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 38 32 … …
  • 39. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 39 32 … … この辺にGTの 物体があったと すると…
  • 40. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 40 32 … … この辺にGTの 物体があったと すると… この辺のアン カーがpositive になる
  • 41. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 41 32 … …
  • 42. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 42 32 … … この辺にGTの 物体があったと すると…
  • 43. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 43 32 … この辺にGTの 物体があったと すると… この辺のアン カー全部が positiveになる
  • 44. Mobility Technologies Co., Ltd. ということが言いたいのが論文のこの図 • 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数 • 縦軸で異なるmatching手法を比較している この問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive とすることを提案 Positive anchorの不均衡問題 44 RetinaNet YOLOF 大きい物体ばっかり 優先的に学習される
  • 45. Mobility Technologies Co., Ltd. “we set IoU thresholds in Uniform Matching to ignore large IoU (>0.7) negative anchors and small IoU (<0.15) positive anchors.” 特に大きなアンカーはIoUが大きくなるアンカーが大量に出る • これらに対してnegativeなlossをかけるのはよろしくない RetinaNet等、複数スケールの特徴を利用する場合、大きな物体を 担当する特徴マップは低解像度で、アンカーは前述のように細かく 配置されていないためこの問題は顕著ではない ちなみに 45
  • 46. Mobility Technologies Co., Ltd. Adaptive Training Sample Selection (ATSS) • Anchor-basedな手法とAnchor-freeな手法のパフォーマンスの差は (色々な細かい改善手法と)positive, negative Anchorを定義する matchingアルゴリズムの差であることを指摘 • 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive, negativeへアサインするためのしきい値を決定する手法を提案 関連手法 46 S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.
  • 47. Mobility Technologies Co., Ltd. YOLO, YOLOv2はpositiveはbest matchの1件のみ DETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorと のmatchingを最適化している YOLOFはpositiveの個数に着目してバランスすることを目的にして いる(というexcuse 他にもCVPR’21で、GTとAnchorのassignを最適化する手法が出て いる 関連手法 47 J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional Network," in Proc. of CVPR, 2021. Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object Detection," in Proc. of CVPR, 2021.
  • 48. Mobility Technologies Co., Ltd. NeckとしてC5特徴入力し、P5特徴を出力するdilated convモ ジュールを利用 1つの特徴マップに全スケールのアンカーを押し込んだRetina Head を利用 GTからtop-k (k=4) のAnchorをpositiveAnchorとする YOLOFまとめ 48
  • 49. Mobility Technologies Co., Ltd. RetinaNetより同等以上の精度で早い 結果: ベースであるRetinaNetとの比較 49 RetinaNet+: YOLOF実装に合わせたRetinaNet
  • 50. Mobility Technologies Co., Ltd. 7倍早く収束する! 大きな物体はDETRのほうが得意 結果: 同じC5特徴だけを利用するDETRとの比較 50
  • 51. Mobility Technologies Co., Ltd. ちょっと早くてちょっと精度が良い 結果: Single shot detectorと言えば…のYOLO系と比較 51
  • 52. Mobility Technologies Co., Ltd. ResBlockは多いほうが良い(が4つで勘弁してやる) Dilationは2,4,6,8 • 1,1,1,1の精度が悪いので単に深くするだけでは駄目 Residual機構はあった方が良い • 全スケール良くなっているので元々の複数スケールカバーする云々は…↑ Ablation Study: Neck構造 52
  • 53. Mobility Technologies Co., Ltd. Uniformにtop-4が良い Ablation Study: matching部分 53
  • 54. Mobility Technologies Co., Ltd. C5特徴でも小さい物体を検出できる部分は面白い 精度速度のトレードオフを追い求めるという観点では、複数スケー ルの特徴を使って重くなるのはstride=8, 16のところなので、そこ だけ使わずにP5-7は使うでよいのではないか • 複数スケール使いたくない病なら仕方がない YOLOv3~はstride=8の特徴マップを使っているがweight shared の重いHeadを使っていないので問題ない Anchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な手 法があるのでは? • 高解像度特徴まで効率的に見るようなDETRが全てを解決する? 所感 54
  • 55. Mobility Technologies Co., Ltd. 資料作成に当たり色々議論してくれた 同僚の @hirotomusiker に感謝! Acknowledgement 55