SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
!"#$%&'"&()!*'+," -./)011*2*".3)
4"5*#.)1%&)!"'-.3*2)
!"#'".3-3*%.)6*37)8&-.51%&'"&5)
!"#$%&'$(%)$"*+'%)+",(%-*'.'",%/0(%1"'2+%1"+".302+4(%
567$%89%1:;+4$#(%<'",%=06(%+4&';>?>@
大谷碧生(名工大玉木研)
英語論文紹介>?>@A@@AB
概要
nセマンティックセグメンテーション
• ピクセル単位のカテゴリー予測
nTransformerエンコーダ設計の研究が多い
n提案手法
• Transformer frameworkであるC$,D642$4
• エンコーダ,デコーダ両方の再設計
nC$,D642$4の特徴
• 階層化された新しいE4+"7F642$4エンコーダ
• 軽量な1::G8=<デコーダ
the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on
Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C.
Code will be released at: github.com/NVlabs/SegFormer.
1 Introduction
32
36
40
44
48
52
0 50 100 150 200 250 300 350
ADE20K
mIoU
Params (Millions)
B0
B1
SemFPN
Swin Transformer
Twins
FCN-R50
SETR
mIoU Params FLOPs FPS
SegFormer-B0
FCN-R50
37.4
36.1
3.7M
49.6M
8.4G
198.0G
50.5
23.5
SegFormer-B2
DeeplabV3+/R101
HRNet-W48 + OCR
46.5
44.1
43.0
27.5M
62.7M
70.5M
62.4G
255.1G
164.8G
24.5
14.1
17.0
SegFormer-B4
SETR
50.3
48.6
64.1M
318.3M
95.7G
362.1G
15.4
5.4
HRNet-W48 + OCR
DeepLabV3+/R101
PVT
B2
B3
B4
SegFormer-B5
Figure 1: Performance vs. model efficiency on ADE20K. All results
Semantic segmentation is a fundamental task in
computer vision and enables many downstream
applications. It is related to image classification
since it produces per-pixel category prediction
instead of image-level prediction. This relation-
ship is pointed out and systematically studied in
a seminal work [1], where the authors used fully
convolutional networks (FCNs) for semantic seg-
mentation tasks. Since then, FCN has inspired
many follow-up works and has become a predom-
inant design choice for dense prediction.
Since there is a strong relation between classi-
fication and semantic segmentation, many state-
of-the-art semantic segmentation frameworks are
variants of popular architectures for image classi-
fication on ImageNet. Therefore, designing back-
提案手法
関連研究
nC$2+"H'I%C$,2$"H+H'6"
• 基本的な働きJDKLMを提案 J=6",N(%KO<P>?@BM
• エンドツーエンドでピクセル間の分類を行う
• E4+"7F642$4ベースのアーキテクチャの有効性を証明 J-*$",N(%KO<P>?>@M
• 計算負荷が高い
nE4+"7F642$4%Q+I3Q6"$7
• O'E JR676;'H73'SN(%+4&';>?>?M
• 純粋なE4+"7F642$4が画像分類において最先端の性能を達成できることを証明
• <OE%J)+",N(%KO<P>?>@M
• E4+"7F642$4に階層型構造を導入
!"#$%&'"&
n>つの主要モジュールから構成
• 高解像度の特徴と低解像度の特徴量を生成する階層型E4+"7F642$4エンコーダ
• 複数スケールの特徴を受け取り,最終的なセマンティックセグメンテーション・マ
スクを生成する軽量の1::G8=<デコーダ
Overlap
Patch
Embeddings
Transformer
Block
1
MLP
Layer
!
"
×
#
"
×"$
!
%
×
#
%
×"&
!
'&
×
#
'&
×""
!
$(
×
#
$(
×"'
!
"
×
#
"
×4"
MLP
!
"
×
#
"
×$)*+
Transformer
Block
2
Transformer
Block
3
Transformer
Block
4
Overlap
Patch
Merging
Efficient
Self-Attn
Mix-FFN
×"
UpSample
MLP
!
"!"# ×
#
"!"# ×"$
!
"!"# ×
#
"!"# ×"
!
%
×
#
%
×"
Encoder Decoder
n処理の流れ
!" #×$×%の画像を受けとる
&" '×'のパッチサイズずつに分割
%" パッチを入力とし階層型
()*+,-.)/0)エンコーダに与える
'" 複数スケールの特徴量を出力し,
123デコーダに与える
4" 123デコーダからセグメンテー
ションマスクを得る
エンコーダ
n8'T%E4+"7F642$4エンコーダ J8'EM
• <OEをベースに異なる特徴量マップを生成
n!FF'I'$"H%C$:FG1HH$"H'6"
• Uの次元を減らすことで計算量削減
• 本来の処理
• 計算量:Ο(𝑁!)
• 提案手法
• <OEのシーケンス削減を採用
• 計算量:Ο(
"!
#
)
Overlap
Patch
Embeddings
Transformer
Block
1
MLP
Layer
!
"
×
#
"
×"$
!
%
×
#
%
×"&
!
'&
×
#
'&
×""
!
$(
×
#
$(
×"'
Transformer
Block
2
Transformer
Block
3
Transformer
Block
4
Overlap
Patch
Merging
Efficient
Self-Attn
Mix-FFN
×"
UpSample
MLP
!
"!"# ×
#
"!"# ×"$
!
"!"# ×
#
"!"# ×"
Encoder
Figure 2: The proposed SegFormer framework consists of two main mod
encoder to extract coarse and fine features; and a lightweight All-MLP decode
%
𝐾 = Reshape(
𝑁
𝑅
, 𝐶 1 𝑅)(𝐾)
𝐾 = Linear(𝐶 1 𝑅, 𝐶)(%
𝐾) V% ⁄
(𝐻 × 𝑊) 𝑅 ×𝐶
Attention 𝑄, 𝐾, 𝑉 V%Softmax
$%"
&#$%&
𝑉
𝑄, 𝐾, 𝑉 = 𝑁 × 𝐶 = 𝐻 × 𝑊 × 𝐶
デコーダ
n特徴
• 1::G8=<
• 高解像度の特徴量と低解像度の特徴量という異な
るスケールの情報をシンプルかつ効率よく統合する
ことが目的
n処理の流れ
@9 8'Eエンコーダから得られた特徴量𝐹1のチャネル
次元を統一
>9 特徴量を ⁄
1 4にアップサンプリングして連結
W9 連結された特徴量Dを融合
4. ⁄
𝐻 4× ⁄
𝑊 4×𝑁234の解像度でセグメンテーション
マスク8を予測
Overlap
Patch
Embeddings
Transformer
Block
1
MLP
Layer
!
"
×
#
"
×"$
!
%
×
#
%
×"&
!
'&
×
#
'&
×""
!
$(
×
#
$(
×"'
!
"
×
#
"
×4"
MLP
!
"
×
#
"
×$)*+
Transformer
Block
2
Transformer
Block
3
Transformer
Block
4
Overlap
Patch
Merging
Efficient
Self-Attn
Mix-FFN
×"
UpSample
MLP
!
"!"# ×
#
"!"# ×"$
!
"!"# ×
#
"!"# ×"
!
%
×
#
%
×"
Encoder Decoder
Figure 2: The proposed SegFormer framework consists of two main modules: A hierarchical Transfo
encoder to extract coarse and fine features; and a lightweight All-MLP decoder to directly fuse these multi-
features and predict the semantic segmentation mask. “FFN” indicates feed-forward network.
@ >
W
X
実験設定
nデータセット
• K'HS7I+Y$7%JK64.H7N(%KO<P>?@ZM
• 1R!>?U%J-*60N(%KO<P>?@[M
• KKCH0FF JK+$7+4N(%KO<P>?@]M
n学習
• ランダムなリサイズ
• ?9B〜>9?
• クロップサイズ
• B@>×B@>%J1R!>?U(%KKCH0FFM
• @?>X×@?>X%JK'HS7I+Y$7M
• ZX?×ZX?%J1R!>?UM
• 8'EG^B%
• オプティマイザー
• 1.+2)
n学習
• 反復回数
• @Z?U%JK'HS7I+Y$7(%1R!>?UM
• ]?U%JKKCH0FFM
• バッチサイズ
• @Z%J1R!>?U(%KKGCH0FFM
• ]%JK'HS7I+Y$7M
• 学習率
• ?9????Z
n評価
• クロップサイズ
• B@>×B@>%J1R!>?U(%KKCH0FFM
• @?>X×@?>X%JK'HS7I+Y$7M
• 指標
• 2_6`
結果 (データセットでの比較)
n1R!>?U(%K'HS7I+Y$7
• P$+:GE'2$
• 提案手法はパラメータ数,D:6Y7,2_6`の点で優れている
• L6"%P$+:GE'2$
• C$,D642$4G^BはC!EPを含む全ての手法より優れている
Encoder Params ADE20K Cityscapes COCO-Stuff
Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) "
MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6
MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2
MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6
MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5
MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5
MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7
(b) Accuracy as a function of the MLP
dimension C in the decoder on ADE20K.
C Flops # Params # mIoU "
256 25.7 24.7 44.9
512 39.8 25.8 45.0
768 62.4 27.5 45.4
1024 93.6 29.6 45.2
2048 304.4 43.4 45.6
(c) Mix-FFN vs. positional encoding (PE) for
different test resolution on Cityscapes.
Inf Res Enc Type mIoU "
768⇥768 PE 77.3
1024⇥2048 PE 74.0
768⇥768 Mix-FFN 80.5
1024⇥2048 Mix-FFN 79.8
(d) Accuracy on ADE20K of CNN and
Transformer encoder with MLP decoder.
“S4” means stage-4 feature.
Encoder Flops # Params # mIoU "
ResNet50 (S1-4) 69.2 29.0 34.7
ResNet101 (S1-4) 88.7 47.9 38.7
ResNeXt101 (S1-4) 127.5 86.8 39.8
MiT-B2 (S4) 22.3 24.7 43.1
MiT-B2 (S1-4) 62.4 27.7 45.4
MiT-B3 (S1-4) 79.0 47.3 48.6
Table 2: Comparison to state of the art methods on ADE20K and Cityscapes. SegFormer has significant
advantages on #Params, #Flops, #Speed and #Accuracy. Note that for SegFormer-B0 we scale the short side of
image to {1024, 768, 640, 512} to get speed-accuracy tradeoffs.
Method Encoder Params #
ADE20K Cityscapes
Flops # FPS " mIoU " Flops # FPS " mIoU "
Real-Time
FCN [1] MobileNetV2 9.8 39.6 64.4 19.7 317.1 14.2 61.5
ICNet [11] - - - - - - 30.3 67.7
PSPNet [17] MobileNetV2 13.7 52.9 57.7 29.6 423.4 11.2 70.2
DeepLabV3+ [20] MobileNetV2 15.4 69.4 43.1 34.0 555.4 8.4 75.2
SegFormer (Ours) MiT-B0 3.8
8.4 50.5 37.4 125.5 15.2 76.2
- - - 51.7 26.3 75.3
- - - 31.5 37.1 73.7
- - - 17.7 47.6 71.9
Non
Real-Time
FCN [1] ResNet-101 68.6 275.7 14.8 41.4 2203.3 1.2 76.6
EncNet [24] ResNet-101 55.1 218.8 14.9 44.7 1748.0 1.3 76.9
PSPNet [17] ResNet-101 68.1 256.4 15.3 44.4 2048.9 1.2 78.5
CCNet [41] ResNet-101 68.9 278.4 14.1 45.2 2224.8 1.0 80.2
DeeplabV3+ [20] ResNet-101 62.7 255.1 14.1 44.1 2032.3 1.2 80.9
OCRNet [23] HRNet-W48 70.5 164.8 17.0 45.6 1296.8 4.2 81.1
GSCNN [35] WideResNet38 - - - - - - 80.8
Axial-DeepLab [74] AxialResNet-XL - - - - 2446.8 - 81.1
Dynamic Routing [75] Dynamic-L33-PSP - - - - 270.0 - 80.7
Auto-Deeplab [50] NAS-F48-ASPP - - - 44.0 695.0 - 80.3
SETR [7] ViT-Large 318.3 - 5.4 50.2 - 0.5 82.2
SegFormer (Ours) MiT-B4 64.1 95.7 15.4 51.1 1240.6 3.0 83.8
SegFormer (Ours) MiT-B5 84.7 183.3 9.8 51.8 1447.6 2.5 84.0
定性的評価
nR$$Y=+Q;WN%JK*$"N(%
!KKO>?@]Mとの比較
• 長距離の誤差を削減
SegFormer SegFormer
DeepLabv3+
ve results on Cityscapes. Compared to SETR, our SegFormer predicts masks with substan-
ear object boundaries. Compared to DeeplabV3+, SegFormer reduces long-range errors as
Best viewed in screen.
to natural corruptions
is important for many safety-critical tasks such as autonomous driving [77]. In this
SegFormer
SETR
nC!EP J-*$",N(%KO<P>?>@M
との比較
• 物体の境界付近でより詳
細なマスクを予測
結果 (ロバスト性)
n一般的なI6440YH'6"やY$4H04Q+H'6"に対するC$,D642$4のロバスト性を評価
n考察
• a+077%L6'7$では最大B]]b,C"6cでは最大>dBbの改善を確認
• ロバスト性が重要なアプリケーションに役立つものと考えられる
4.4 Robustness to natural corruptions
Model robustness is important for many safety-critical tasks such as autonomous driving [77]. In this
experiment, we evaluate the robustness of SegFormer to common corruptions and perturbations. To
this end, we follow [77] and generate Cityscapes-C, which expands the Cityscapes validation set with
16 types of algorithmically generated corruptions from noise, blur, weather and digital categories. We
compare our method to variants of DeeplabV3+ and other methods as reported in [77]. The results
for this experiment are summarized in Table 5.
Our method significantly outperforms previous methods, yielding a relative improvement of up to
588% on Gaussian Noise and up to 295% on snow weather. The results indicate the strong robustness
of SegFormer, which we envision to benefit safety-critical applications where robustness is important.
Table 5: Main results on Cityscapes-C. “DLv3+”, “MBv2”, “R” and “X” refer to DeepLabv3+, MobileNetv2,
ResNet and Xception. The mIoUs of compared methods are reported from [77].
Method Clean
Blur Noise Digital Weather
Motion Defoc Glass Gauss Gauss Impul Shot Speck Bright Contr Satur JPEG Snow Spatt Fog Frost
DLv3+ (MBv2) 72.0 53.5 49.0 45.3 49.1 6.4 7.0 6.6 16.6 51.7 46.7 32.4 27.2 13.7 38.9 47.4 17.3
DLv3+ (R50) 76.6 58.5 56.6 47.2 57.7 6.5 7.2 10.0 31.1 58.2 54.7 41.3 27.4 12.0 42.0 55.9 22.8
DLv3+ (R101) 77.1 59.1 56.3 47.7 57.3 13.2 13.9 16.3 36.9 59.2 54.5 41.5 37.4 11.9 47.8 55.1 22.7
DLv3+ (X41) 77.8 61.6 54.9 51.0 54.7 17.0 17.3 21.6 43.7 63.6 56.9 51.7 38.5 18.2 46.6 57.6 20.6
DLv3+ (X65) 78.4 63.9 59.1 52.8 59.2 15.0 10.6 19.8 42.4 65.9 59.1 46.1 31.4 19.3 50.7 63.6 23.8
DLv3+ (X71) 78.6 64.1 60.9 52.0 60.4 14.9 10.8 19.4 41.2 68.0 58.7 47.1 40.2 18.8 50.4 64.1 20.2
ICNet 65.9 45.8 44.6 47.4 44.7 8.4 8.4 10.6 27.9 41.0 33.1 27.5 34.0 6.3 30.5 27.3 11.0
FCN8s 66.7 42.7 31.1 37.0 34.1 6.7 5.7 7.8 24.9 53.3 39.0 36.0 21.2 11.3 31.6 37.6 19.7
DilatedNet 68.6 44.4 36.3 32.5 38.4 15.6 14.0 18.4 32.7 52.7 32.6 38.1 29.1 12.5 32.3 34.7 19.2
ResNet-38 77.5 54.6 45.1 43.3 47.2 13.7 16.0 18.2 38.3 60.0 50.6 46.9 14.7 13.5 45.9 52.9 22.2
PSPNet 78.8 59.8 53.2 44.4 53.9 11.0 15.4 15.4 34.2 60.4 51.8 30.6 21.4 8.4 42.7 34.4 16.2
GSCNN 80.9 58.9 58.4 41.9 60.1 5.5 2.6 6.8 24.7 75.9 61.9 70.7 12.0 12.4 47.3 67.9 32.6
SegFormer-B5 82.4 69.1 68.6 64.1 69.8 57.8 63.4 52.3 72.8 81.0 77.7 80.1 58.8 40.7 68.4 78.5 49.9
まとめ
nC$,D642$4を提案
• >つのモジュールから構成
• 位置エンコード不要の階層型E4+"7F642$4エンコーダ
• 軽量の1::G8=<デコーダ
• 複雑な設計を避け,高い効率性を性能を両立
• 一般的なデータセットで最先端の結果を達成
• 強力なロバスト性
n今後の課題
• @??3のメモリしかないエッジデバイスのチップでうまく機能するかどうかの確認
• 提案手法の最小のW9[8パラメータモデルは,既存のKLLモデルより小さい
予備スライド
*%+
!"#$%&'%()#"*$+
!"#$%&'%,-.&-
/&, 0%
エンコーダ
n8'TGDLL
• <!%J<67'H'6"+:%!"I6.'",Mの代わりに,D$$.%D64c+4.%L$Hc643%JDDLMにおいてWTW
の畳み込み演算を用いる
• <!の解像度は固定
n;$4:+YY$.%<+HI*%8$4,'",
• >×>×𝐶1の特徴量のパスを@×@×𝐶156のベクトルにして,階層的な特徴量マップを
得る
• 𝐹6( ⁄
𝐻 4× ⁄
𝑊 4×𝐶6)から𝐹!( ⁄
𝐻 8× ⁄
𝑊 8×𝐶!)へと階層化された特徴量を縮小
• 階層内の他の特徴量マップを反復することが可能
• パッチ周辺の局所的な連続性を保持することができない
• U%V[(C%VX(<%VW U%VW(C%V>(<%V@で実験
!"#"パッチサイズ
$"#"隣接する%つのパッチ間のストライド
&"#"パディングサイズ
,--./01デコーダのみで良いのか?
nR$$Y=+Q;WNとC$,D642$4についてXつのエンコーダステージとデコーダヘッドの
$FF$IH';$%4$I$YH';$%F'$:.%J!PDMを可視化
• 入力に近いCH+,$G@では,どちらも局所的な反応が得られる
• CH+,$GX
• KLLベースの手法で受容野が限られている
• E4+"7F642$4ベースの手法の受容野は,広範囲に広がっている
• 8=<を通した後の方が,局所的な!PDが強くなる
he decoder as:
F̂i = Linear(Ci, C)(Fi), 8i
F̂i = Upsample(
W
4
⇥
W
4
)(F̂i), 8i
F = Linear(4C, C)(Concat(F̂i)), 8i
M = Linear(C, Ncls)(F),
(4)
redicted mask, and Linear(Cin, Cout)(·) refers to a linear layer with Cin and
ut vector dimensions respectively.
DeepLabv3+
SegFormer
Stage-1 Stage-2 Stage-3 Head
Stage-4
ield Analysis.
tion, maintain-
to include con-
en a central is-
we use effec-
RF) [70] as a
interpret why
gn is so effec-
8=<を通した後
8=<を通す前
エンコーダのサイズを大きくすることで与えられる影響
n考察
• 軽量モデルでは,デコーダのパラメータは?9X8しかない
• 8'EG^Bエンコーダでは,デコーダはモデルの全パラメータ数のX%しか占めていない
• エンコーダのサイズを大きくすると,性能向上
Table 1: Ablation studies related to model size, encoder and decoder design.
(a) Accuracy, parameters and flops as a function of the model size on the three datasets. “SS” and “MS” means single/multi-scale test.
Encoder Params ADE20K Cityscapes COCO-Stuff
Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) "
MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6
MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2
MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6
MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5
MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5
MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7
(b) Accuracy as a function of the MLP (c) Mix-FFN vs. positional encoding (PE) for (d) Accuracy on ADE20K of CNN and
Transformer encoder with MLP decoder.
軽量
/23.$$4567851%7292%:;-5<:=%>"&5(1<)
nE4+"7F642$4エンコーダに8'TGDDLと<!で学習させ,異なる画像解像度で推論
• 7:'.'",%c'".6cを用いて[Z]×[Z]
• 画像全体を用いた@?>X×>?X]
n考察
• 8'TGDDLを用いた手法はと<!を用いた手法より優れている
• 8'TGDDLを用いた手法の方がロバスト
• 解像度の違いによる変化
• <!%e%W9Wb低下
• 8'TGDDL%e%?9[b低下
Encoder Params ADE20K Cityscapes
Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS
MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 /
MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 /
MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 /
MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 /
MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 /
MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 /
(b) Accuracy as a function of the MLP
dimension C in the decoder on ADE20K.
C Flops # Params # mIoU "
256 25.7 24.7 44.9
512 39.8 25.8 45.0
768 62.4 27.5 45.4
1024 93.6 29.6 45.2
2048 304.4 43.4 45.6
(c) Mix-FFN vs. positional encoding (PE) for
different test resolution on Cityscapes.
Inf Res Enc Type mIoU "
768⇥768 PE 77.3
1024⇥2048 PE 74.0
768⇥768 Mix-FFN 80.5
1024⇥2048 Mix-FFN 79.8
(d) A
Trans
“S4”
Enco
ResN
ResN
ResN
MiT
MiT
MiT
<??"=926"5&"="@926"5?2"->5"6;-A;92%:
nKLLベースのエンコーダーと組み合わせたときの8=<デコーダーの性能を比較
n考察
• 8=<デコーダーをKLLベースのエンコーダーと組み合わせた場合,提案したエン
コーダーと組み合わせた場合に比べて,精度が著しく低下
• KLLはE4+"7F642$4よりも小さな受容野を持つため,8=<Gデコーダはグロー
バルな推論には不十分
• E4+"7F642$4エンコーダと8=<デコーダを結合すると,最高のパフォーマンス
が得られる
ies related to model size, encoder and decoder design.
n of the model size on the three datasets. “SS” and “MS” means single/multi-scale test.
ADE20K Cityscapes COCO-Stuff
ps # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) "
4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6
.9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2
.4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6
.0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5
.7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5
3.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7
Mix-FFN vs. positional encoding (PE) for
erent test resolution on Cityscapes.
nf Res Enc Type mIoU "
68⇥768 PE 77.3
024⇥2048 PE 74.0
68⇥768 Mix-FFN 80.5
024⇥2048 Mix-FFN 79.8
(d) Accuracy on ADE20K of CNN and
Transformer encoder with MLP decoder.
“S4” means stage-4 feature.
Encoder Flops # Params # mIoU "
ResNet50 (S1-4) 69.2 29.0 34.7
ResNet101 (S1-4) 88.7 47.9 38.7
ResNeXt101 (S1-4) 127.5 86.8 39.8
MiT-B2 (S4) 22.3 24.7 43.1
MiT-B2 (S1-4) 62.4 27.7 45.4
MiT-B3 (S1-4) 79.0 47.3 48.6
!<BC5(DE":#FG5HI1CJKJL)との関係
nC!EP
• 事前学習
• _2+,$L$HG>>U
• エンコーダ
• O'Eエンコーダ
• 単一の低解像度の特徴マップ
しか生成できない
• <67'H'6"+:%!2Q$..'",を使用
• デコーダ
• 複数のW×Wの畳み込みを行う重
いデコーダが必要
nC$,D642$4
• 事前学習
• _2+,$L$HG@U
• エンコーダ
• 階層型のアーキテクチャ
• 小型
• 高解像度の粗い特徴と低解像度
の細かい特徴を得ることが可能
• <67'H'6"+:%!2Q$..'",を使用しない
• デコーダ
• コンパクトで計算負荷が少ない

Contenu connexe

Tendances

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networkstm1966
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれからcyberagent
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 

Tendances (20)

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 

Similaire à 文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video RecognitionToru Tamaki
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
 
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network文献紹介:Video Transformer Network
文献紹介:Video Transformer NetworkToru Tamaki
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...Toru Tamaki
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...Toru Tamaki
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video UnderstandingToru Tamaki
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical FlowToru Tamaki
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610HIDEOMI SUZUKI
 
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video RecognitionToru Tamaki
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action RecognitionToru Tamaki
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video InpaintingToru Tamaki
 
文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic InpaintingToru Tamaki
 
文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action RecognitionToru Tamaki
 
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video ClassificationToru Tamaki
 
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...Toru Tamaki
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 

Similaire à 文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (20)

文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting
 
文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition
 
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
 
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 

Plus de Toru Tamaki

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense PredictionsToru Tamaki
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understandingToru Tamaki
 

Plus de Toru Tamaki (20)

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
 

文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

  • 2. 概要 nセマンティックセグメンテーション • ピクセル単位のカテゴリー予測 nTransformerエンコーダ設計の研究が多い n提案手法 • Transformer frameworkであるC$,D642$4 • エンコーダ,デコーダ両方の再設計 nC$,D642$4の特徴 • 階層化された新しいE4+"7F642$4エンコーダ • 軽量な1::G8=<デコーダ the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C. Code will be released at: github.com/NVlabs/SegFormer. 1 Introduction 32 36 40 44 48 52 0 50 100 150 200 250 300 350 ADE20K mIoU Params (Millions) B0 B1 SemFPN Swin Transformer Twins FCN-R50 SETR mIoU Params FLOPs FPS SegFormer-B0 FCN-R50 37.4 36.1 3.7M 49.6M 8.4G 198.0G 50.5 23.5 SegFormer-B2 DeeplabV3+/R101 HRNet-W48 + OCR 46.5 44.1 43.0 27.5M 62.7M 70.5M 62.4G 255.1G 164.8G 24.5 14.1 17.0 SegFormer-B4 SETR 50.3 48.6 64.1M 318.3M 95.7G 362.1G 15.4 5.4 HRNet-W48 + OCR DeepLabV3+/R101 PVT B2 B3 B4 SegFormer-B5 Figure 1: Performance vs. model efficiency on ADE20K. All results Semantic segmentation is a fundamental task in computer vision and enables many downstream applications. It is related to image classification since it produces per-pixel category prediction instead of image-level prediction. This relation- ship is pointed out and systematically studied in a seminal work [1], where the authors used fully convolutional networks (FCNs) for semantic seg- mentation tasks. Since then, FCN has inspired many follow-up works and has become a predom- inant design choice for dense prediction. Since there is a strong relation between classi- fication and semantic segmentation, many state- of-the-art semantic segmentation frameworks are variants of popular architectures for image classi- fication on ImageNet. Therefore, designing back- 提案手法
  • 3. 関連研究 nC$2+"H'I%C$,2$"H+H'6" • 基本的な働きJDKLMを提案 J=6",N(%KO<P>?@BM • エンドツーエンドでピクセル間の分類を行う • E4+"7F642$4ベースのアーキテクチャの有効性を証明 J-*$",N(%KO<P>?>@M • 計算負荷が高い nE4+"7F642$4%Q+I3Q6"$7 • O'E JR676;'H73'SN(%+4&';>?>?M • 純粋なE4+"7F642$4が画像分類において最先端の性能を達成できることを証明 • <OE%J)+",N(%KO<P>?>@M • E4+"7F642$4に階層型構造を導入
  • 4. !"#$%&'"& n>つの主要モジュールから構成 • 高解像度の特徴と低解像度の特徴量を生成する階層型E4+"7F642$4エンコーダ • 複数スケールの特徴を受け取り,最終的なセマンティックセグメンテーション・マ スクを生成する軽量の1::G8=<デコーダ Overlap Patch Embeddings Transformer Block 1 MLP Layer ! " × # " ×"$ ! % × # % ×"& ! '& × # '& ×"" ! $( × # $( ×"' ! " × # " ×4" MLP ! " × # " ×$)*+ Transformer Block 2 Transformer Block 3 Transformer Block 4 Overlap Patch Merging Efficient Self-Attn Mix-FFN ×" UpSample MLP ! "!"# × # "!"# ×"$ ! "!"# × # "!"# ×" ! % × # % ×" Encoder Decoder n処理の流れ !" #×$×%の画像を受けとる &" '×'のパッチサイズずつに分割 %" パッチを入力とし階層型 ()*+,-.)/0)エンコーダに与える '" 複数スケールの特徴量を出力し, 123デコーダに与える 4" 123デコーダからセグメンテー ションマスクを得る
  • 5. エンコーダ n8'T%E4+"7F642$4エンコーダ J8'EM • <OEをベースに異なる特徴量マップを生成 n!FF'I'$"H%C$:FG1HH$"H'6" • Uの次元を減らすことで計算量削減 • 本来の処理 • 計算量:Ο(𝑁!) • 提案手法 • <OEのシーケンス削減を採用 • 計算量:Ο( "! # ) Overlap Patch Embeddings Transformer Block 1 MLP Layer ! " × # " ×"$ ! % × # % ×"& ! '& × # '& ×"" ! $( × # $( ×"' Transformer Block 2 Transformer Block 3 Transformer Block 4 Overlap Patch Merging Efficient Self-Attn Mix-FFN ×" UpSample MLP ! "!"# × # "!"# ×"$ ! "!"# × # "!"# ×" Encoder Figure 2: The proposed SegFormer framework consists of two main mod encoder to extract coarse and fine features; and a lightweight All-MLP decode % 𝐾 = Reshape( 𝑁 𝑅 , 𝐶 1 𝑅)(𝐾) 𝐾 = Linear(𝐶 1 𝑅, 𝐶)(% 𝐾) V% ⁄ (𝐻 × 𝑊) 𝑅 ×𝐶 Attention 𝑄, 𝐾, 𝑉 V%Softmax $%" &#$%& 𝑉 𝑄, 𝐾, 𝑉 = 𝑁 × 𝐶 = 𝐻 × 𝑊 × 𝐶
  • 6. デコーダ n特徴 • 1::G8=< • 高解像度の特徴量と低解像度の特徴量という異な るスケールの情報をシンプルかつ効率よく統合する ことが目的 n処理の流れ @9 8'Eエンコーダから得られた特徴量𝐹1のチャネル 次元を統一 >9 特徴量を ⁄ 1 4にアップサンプリングして連結 W9 連結された特徴量Dを融合 4. ⁄ 𝐻 4× ⁄ 𝑊 4×𝑁234の解像度でセグメンテーション マスク8を予測 Overlap Patch Embeddings Transformer Block 1 MLP Layer ! " × # " ×"$ ! % × # % ×"& ! '& × # '& ×"" ! $( × # $( ×"' ! " × # " ×4" MLP ! " × # " ×$)*+ Transformer Block 2 Transformer Block 3 Transformer Block 4 Overlap Patch Merging Efficient Self-Attn Mix-FFN ×" UpSample MLP ! "!"# × # "!"# ×"$ ! "!"# × # "!"# ×" ! % × # % ×" Encoder Decoder Figure 2: The proposed SegFormer framework consists of two main modules: A hierarchical Transfo encoder to extract coarse and fine features; and a lightweight All-MLP decoder to directly fuse these multi- features and predict the semantic segmentation mask. “FFN” indicates feed-forward network. @ > W X
  • 7. 実験設定 nデータセット • K'HS7I+Y$7%JK64.H7N(%KO<P>?@ZM • 1R!>?U%J-*60N(%KO<P>?@[M • KKCH0FF JK+$7+4N(%KO<P>?@]M n学習 • ランダムなリサイズ • ?9B〜>9? • クロップサイズ • B@>×B@>%J1R!>?U(%KKCH0FFM • @?>X×@?>X%JK'HS7I+Y$7M • ZX?×ZX?%J1R!>?UM • 8'EG^B% • オプティマイザー • 1.+2) n学習 • 反復回数 • @Z?U%JK'HS7I+Y$7(%1R!>?UM • ]?U%JKKCH0FFM • バッチサイズ • @Z%J1R!>?U(%KKGCH0FFM • ]%JK'HS7I+Y$7M • 学習率 • ?9????Z n評価 • クロップサイズ • B@>×B@>%J1R!>?U(%KKCH0FFM • @?>X×@?>X%JK'HS7I+Y$7M • 指標 • 2_6`
  • 8. 結果 (データセットでの比較) n1R!>?U(%K'HS7I+Y$7 • P$+:GE'2$ • 提案手法はパラメータ数,D:6Y7,2_6`の点で優れている • L6"%P$+:GE'2$ • C$,D642$4G^BはC!EPを含む全ての手法より優れている Encoder Params ADE20K Cityscapes COCO-Stuff Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) " MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6 MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2 MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6 MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5 MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5 MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7 (b) Accuracy as a function of the MLP dimension C in the decoder on ADE20K. C Flops # Params # mIoU " 256 25.7 24.7 44.9 512 39.8 25.8 45.0 768 62.4 27.5 45.4 1024 93.6 29.6 45.2 2048 304.4 43.4 45.6 (c) Mix-FFN vs. positional encoding (PE) for different test resolution on Cityscapes. Inf Res Enc Type mIoU " 768⇥768 PE 77.3 1024⇥2048 PE 74.0 768⇥768 Mix-FFN 80.5 1024⇥2048 Mix-FFN 79.8 (d) Accuracy on ADE20K of CNN and Transformer encoder with MLP decoder. “S4” means stage-4 feature. Encoder Flops # Params # mIoU " ResNet50 (S1-4) 69.2 29.0 34.7 ResNet101 (S1-4) 88.7 47.9 38.7 ResNeXt101 (S1-4) 127.5 86.8 39.8 MiT-B2 (S4) 22.3 24.7 43.1 MiT-B2 (S1-4) 62.4 27.7 45.4 MiT-B3 (S1-4) 79.0 47.3 48.6 Table 2: Comparison to state of the art methods on ADE20K and Cityscapes. SegFormer has significant advantages on #Params, #Flops, #Speed and #Accuracy. Note that for SegFormer-B0 we scale the short side of image to {1024, 768, 640, 512} to get speed-accuracy tradeoffs. Method Encoder Params # ADE20K Cityscapes Flops # FPS " mIoU " Flops # FPS " mIoU " Real-Time FCN [1] MobileNetV2 9.8 39.6 64.4 19.7 317.1 14.2 61.5 ICNet [11] - - - - - - 30.3 67.7 PSPNet [17] MobileNetV2 13.7 52.9 57.7 29.6 423.4 11.2 70.2 DeepLabV3+ [20] MobileNetV2 15.4 69.4 43.1 34.0 555.4 8.4 75.2 SegFormer (Ours) MiT-B0 3.8 8.4 50.5 37.4 125.5 15.2 76.2 - - - 51.7 26.3 75.3 - - - 31.5 37.1 73.7 - - - 17.7 47.6 71.9 Non Real-Time FCN [1] ResNet-101 68.6 275.7 14.8 41.4 2203.3 1.2 76.6 EncNet [24] ResNet-101 55.1 218.8 14.9 44.7 1748.0 1.3 76.9 PSPNet [17] ResNet-101 68.1 256.4 15.3 44.4 2048.9 1.2 78.5 CCNet [41] ResNet-101 68.9 278.4 14.1 45.2 2224.8 1.0 80.2 DeeplabV3+ [20] ResNet-101 62.7 255.1 14.1 44.1 2032.3 1.2 80.9 OCRNet [23] HRNet-W48 70.5 164.8 17.0 45.6 1296.8 4.2 81.1 GSCNN [35] WideResNet38 - - - - - - 80.8 Axial-DeepLab [74] AxialResNet-XL - - - - 2446.8 - 81.1 Dynamic Routing [75] Dynamic-L33-PSP - - - - 270.0 - 80.7 Auto-Deeplab [50] NAS-F48-ASPP - - - 44.0 695.0 - 80.3 SETR [7] ViT-Large 318.3 - 5.4 50.2 - 0.5 82.2 SegFormer (Ours) MiT-B4 64.1 95.7 15.4 51.1 1240.6 3.0 83.8 SegFormer (Ours) MiT-B5 84.7 183.3 9.8 51.8 1447.6 2.5 84.0
  • 9. 定性的評価 nR$$Y=+Q;WN%JK*$"N(% !KKO>?@]Mとの比較 • 長距離の誤差を削減 SegFormer SegFormer DeepLabv3+ ve results on Cityscapes. Compared to SETR, our SegFormer predicts masks with substan- ear object boundaries. Compared to DeeplabV3+, SegFormer reduces long-range errors as Best viewed in screen. to natural corruptions is important for many safety-critical tasks such as autonomous driving [77]. In this SegFormer SETR nC!EP J-*$",N(%KO<P>?>@M との比較 • 物体の境界付近でより詳 細なマスクを予測
  • 10. 結果 (ロバスト性) n一般的なI6440YH'6"やY$4H04Q+H'6"に対するC$,D642$4のロバスト性を評価 n考察 • a+077%L6'7$では最大B]]b,C"6cでは最大>dBbの改善を確認 • ロバスト性が重要なアプリケーションに役立つものと考えられる 4.4 Robustness to natural corruptions Model robustness is important for many safety-critical tasks such as autonomous driving [77]. In this experiment, we evaluate the robustness of SegFormer to common corruptions and perturbations. To this end, we follow [77] and generate Cityscapes-C, which expands the Cityscapes validation set with 16 types of algorithmically generated corruptions from noise, blur, weather and digital categories. We compare our method to variants of DeeplabV3+ and other methods as reported in [77]. The results for this experiment are summarized in Table 5. Our method significantly outperforms previous methods, yielding a relative improvement of up to 588% on Gaussian Noise and up to 295% on snow weather. The results indicate the strong robustness of SegFormer, which we envision to benefit safety-critical applications where robustness is important. Table 5: Main results on Cityscapes-C. “DLv3+”, “MBv2”, “R” and “X” refer to DeepLabv3+, MobileNetv2, ResNet and Xception. The mIoUs of compared methods are reported from [77]. Method Clean Blur Noise Digital Weather Motion Defoc Glass Gauss Gauss Impul Shot Speck Bright Contr Satur JPEG Snow Spatt Fog Frost DLv3+ (MBv2) 72.0 53.5 49.0 45.3 49.1 6.4 7.0 6.6 16.6 51.7 46.7 32.4 27.2 13.7 38.9 47.4 17.3 DLv3+ (R50) 76.6 58.5 56.6 47.2 57.7 6.5 7.2 10.0 31.1 58.2 54.7 41.3 27.4 12.0 42.0 55.9 22.8 DLv3+ (R101) 77.1 59.1 56.3 47.7 57.3 13.2 13.9 16.3 36.9 59.2 54.5 41.5 37.4 11.9 47.8 55.1 22.7 DLv3+ (X41) 77.8 61.6 54.9 51.0 54.7 17.0 17.3 21.6 43.7 63.6 56.9 51.7 38.5 18.2 46.6 57.6 20.6 DLv3+ (X65) 78.4 63.9 59.1 52.8 59.2 15.0 10.6 19.8 42.4 65.9 59.1 46.1 31.4 19.3 50.7 63.6 23.8 DLv3+ (X71) 78.6 64.1 60.9 52.0 60.4 14.9 10.8 19.4 41.2 68.0 58.7 47.1 40.2 18.8 50.4 64.1 20.2 ICNet 65.9 45.8 44.6 47.4 44.7 8.4 8.4 10.6 27.9 41.0 33.1 27.5 34.0 6.3 30.5 27.3 11.0 FCN8s 66.7 42.7 31.1 37.0 34.1 6.7 5.7 7.8 24.9 53.3 39.0 36.0 21.2 11.3 31.6 37.6 19.7 DilatedNet 68.6 44.4 36.3 32.5 38.4 15.6 14.0 18.4 32.7 52.7 32.6 38.1 29.1 12.5 32.3 34.7 19.2 ResNet-38 77.5 54.6 45.1 43.3 47.2 13.7 16.0 18.2 38.3 60.0 50.6 46.9 14.7 13.5 45.9 52.9 22.2 PSPNet 78.8 59.8 53.2 44.4 53.9 11.0 15.4 15.4 34.2 60.4 51.8 30.6 21.4 8.4 42.7 34.4 16.2 GSCNN 80.9 58.9 58.4 41.9 60.1 5.5 2.6 6.8 24.7 75.9 61.9 70.7 12.0 12.4 47.3 67.9 32.6 SegFormer-B5 82.4 69.1 68.6 64.1 69.8 57.8 63.4 52.3 72.8 81.0 77.7 80.1 58.8 40.7 68.4 78.5 49.9
  • 11. まとめ nC$,D642$4を提案 • >つのモジュールから構成 • 位置エンコード不要の階層型E4+"7F642$4エンコーダ • 軽量の1::G8=<デコーダ • 複雑な設計を避け,高い効率性を性能を両立 • 一般的なデータセットで最先端の結果を達成 • 強力なロバスト性 n今後の課題 • @??3のメモリしかないエッジデバイスのチップでうまく機能するかどうかの確認 • 提案手法の最小のW9[8パラメータモデルは,既存のKLLモデルより小さい
  • 14. エンコーダ n8'TGDLL • <!%J<67'H'6"+:%!"I6.'",Mの代わりに,D$$.%D64c+4.%L$Hc643%JDDLMにおいてWTW の畳み込み演算を用いる • <!の解像度は固定 n;$4:+YY$.%<+HI*%8$4,'", • >×>×𝐶1の特徴量のパスを@×@×𝐶156のベクトルにして,階層的な特徴量マップを 得る • 𝐹6( ⁄ 𝐻 4× ⁄ 𝑊 4×𝐶6)から𝐹!( ⁄ 𝐻 8× ⁄ 𝑊 8×𝐶!)へと階層化された特徴量を縮小 • 階層内の他の特徴量マップを反復することが可能 • パッチ周辺の局所的な連続性を保持することができない • U%V[(C%VX(<%VW U%VW(C%V>(<%V@で実験 !"#"パッチサイズ $"#"隣接する%つのパッチ間のストライド &"#"パディングサイズ
  • 15. ,--./01デコーダのみで良いのか? nR$$Y=+Q;WNとC$,D642$4についてXつのエンコーダステージとデコーダヘッドの $FF$IH';$%4$I$YH';$%F'$:.%J!PDMを可視化 • 入力に近いCH+,$G@では,どちらも局所的な反応が得られる • CH+,$GX • KLLベースの手法で受容野が限られている • E4+"7F642$4ベースの手法の受容野は,広範囲に広がっている • 8=<を通した後の方が,局所的な!PDが強くなる he decoder as: F̂i = Linear(Ci, C)(Fi), 8i F̂i = Upsample( W 4 ⇥ W 4 )(F̂i), 8i F = Linear(4C, C)(Concat(F̂i)), 8i M = Linear(C, Ncls)(F), (4) redicted mask, and Linear(Cin, Cout)(·) refers to a linear layer with Cin and ut vector dimensions respectively. DeepLabv3+ SegFormer Stage-1 Stage-2 Stage-3 Head Stage-4 ield Analysis. tion, maintain- to include con- en a central is- we use effec- RF) [70] as a interpret why gn is so effec- 8=<を通した後 8=<を通す前
  • 16. エンコーダのサイズを大きくすることで与えられる影響 n考察 • 軽量モデルでは,デコーダのパラメータは?9X8しかない • 8'EG^Bエンコーダでは,デコーダはモデルの全パラメータ数のX%しか占めていない • エンコーダのサイズを大きくすると,性能向上 Table 1: Ablation studies related to model size, encoder and decoder design. (a) Accuracy, parameters and flops as a function of the model size on the three datasets. “SS” and “MS” means single/multi-scale test. Encoder Params ADE20K Cityscapes COCO-Stuff Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) " MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6 MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2 MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6 MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5 MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5 MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7 (b) Accuracy as a function of the MLP (c) Mix-FFN vs. positional encoding (PE) for (d) Accuracy on ADE20K of CNN and Transformer encoder with MLP decoder. 軽量
  • 17. /23.$$4567851%7292%:;-5<:=%>"&5(1<) nE4+"7F642$4エンコーダに8'TGDDLと<!で学習させ,異なる画像解像度で推論 • 7:'.'",%c'".6cを用いて[Z]×[Z] • 画像全体を用いた@?>X×>?X] n考察 • 8'TGDDLを用いた手法はと<!を用いた手法より優れている • 8'TGDDLを用いた手法の方がロバスト • 解像度の違いによる変化 • <!%e%W9Wb低下 • 8'TGDDL%e%?9[b低下 Encoder Params ADE20K Cityscapes Model Size Encoder Decoder Flops # mIoU(SS/MS) " Flops # mIoU(SS MiT-B0 3.4 0.4 8.4 37.4 / 38.0 125.5 76.2 / MiT-B1 13.1 0.6 15.9 42.2 / 43.1 243.7 78.5 / MiT-B2 24.2 3.3 62.4 46.5 / 47.5 717.1 81.0 / MiT-B3 44.0 3.3 79.0 49.4 / 50.0 962.9 81.7 / MiT-B4 60.8 3.3 95.7 50.3 / 51.1 1240.6 82.3 / MiT-B5 81.4 3.3 183.3 51.0 / 51.8 1460.4 82.4 / (b) Accuracy as a function of the MLP dimension C in the decoder on ADE20K. C Flops # Params # mIoU " 256 25.7 24.7 44.9 512 39.8 25.8 45.0 768 62.4 27.5 45.4 1024 93.6 29.6 45.2 2048 304.4 43.4 45.6 (c) Mix-FFN vs. positional encoding (PE) for different test resolution on Cityscapes. Inf Res Enc Type mIoU " 768⇥768 PE 77.3 1024⇥2048 PE 74.0 768⇥768 Mix-FFN 80.5 1024⇥2048 Mix-FFN 79.8 (d) A Trans “S4” Enco ResN ResN ResN MiT MiT MiT
  • 18. <??"=926"5&"="@926"5?2"->5"6;-A;92%: nKLLベースのエンコーダーと組み合わせたときの8=<デコーダーの性能を比較 n考察 • 8=<デコーダーをKLLベースのエンコーダーと組み合わせた場合,提案したエン コーダーと組み合わせた場合に比べて,精度が著しく低下 • KLLはE4+"7F642$4よりも小さな受容野を持つため,8=<Gデコーダはグロー バルな推論には不十分 • E4+"7F642$4エンコーダと8=<デコーダを結合すると,最高のパフォーマンス が得られる ies related to model size, encoder and decoder design. n of the model size on the three datasets. “SS” and “MS” means single/multi-scale test. ADE20K Cityscapes COCO-Stuff ps # mIoU(SS/MS) " Flops # mIoU(SS/MS) " Flops # mIoU(SS) " 4 37.4 / 38.0 125.5 76.2 / 78.1 8.4 35.6 .9 42.2 / 43.1 243.7 78.5 / 80.0 15.9 40.2 .4 46.5 / 47.5 717.1 81.0 / 82.2 62.4 44.6 .0 49.4 / 50.0 962.9 81.7 / 83.3 79.0 45.5 .7 50.3 / 51.1 1240.6 82.3 / 83.9 95.7 46.5 3.3 51.0 / 51.8 1460.4 82.4 / 84.0 111.6 46.7 Mix-FFN vs. positional encoding (PE) for erent test resolution on Cityscapes. nf Res Enc Type mIoU " 68⇥768 PE 77.3 024⇥2048 PE 74.0 68⇥768 Mix-FFN 80.5 024⇥2048 Mix-FFN 79.8 (d) Accuracy on ADE20K of CNN and Transformer encoder with MLP decoder. “S4” means stage-4 feature. Encoder Flops # Params # mIoU " ResNet50 (S1-4) 69.2 29.0 34.7 ResNet101 (S1-4) 88.7 47.9 38.7 ResNeXt101 (S1-4) 127.5 86.8 39.8 MiT-B2 (S4) 22.3 24.7 43.1 MiT-B2 (S1-4) 62.4 27.7 45.4 MiT-B3 (S1-4) 79.0 47.3 48.6
  • 19. !<BC5(DE":#FG5HI1CJKJL)との関係 nC!EP • 事前学習 • _2+,$L$HG>>U • エンコーダ • O'Eエンコーダ • 単一の低解像度の特徴マップ しか生成できない • <67'H'6"+:%!2Q$..'",を使用 • デコーダ • 複数のW×Wの畳み込みを行う重 いデコーダが必要 nC$,D642$4 • 事前学習 • _2+,$L$HG@U • エンコーダ • 階層型のアーキテクチャ • 小型 • 高解像度の粗い特徴と低解像度 の細かい特徴を得ることが可能 • <67'H'6"+:%!2Q$..'",を使用しない • デコーダ • コンパクトで計算負荷が少ない