SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
SegFormer: Simple and Efficient
Design for Semantic Segmentation
with Transformers
2022/06/27
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
修士1年大倉博貴

論文情報
• 著者
– Enze Xie, Wenhai Wang, Zhiding Yu, Anima
Anandkumar, Jose M. Alvarez, Ping Luo
• 発表
– NeurIPS 2021
• ジャーナル
– CoRR
• リンク
– 論文：https://arxiv.org/abs/2105.15203
– Github：https://github.com/NVlabs/SegFormer
2

3
概要
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力なセマ
ンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は，固定サイズの位置埋め込みを用いない階層型
Transformerの構造
– デコーダ部分は，複雑性や計算コスト
を抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、
SoTAを記録

4
背景
• ViT[1]のようなTransformerを用いた画像認識がSoTA
を記録
• Transformerベースモデルの2つの課題
– 固定長の位置埋め込みにより，出力が単一スケールの低解
像度な特徴量
– Attention機構の計算コストが高く，高解像度になるほど高
くなる
• 課題を解決し精度を向上させたモデル設計を目指す
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani,
Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv,
2020

5
提案手法
• SegFormer
– エンコーダ：階層型Transformerの構造
– デコーダ：MLPのみで構成されるAll-MLP

6
エンコーダ
• 階層型Transformer
– 4つの階層で構成され，階層が進むと解像度が下がる
– 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出
• 以下3つの技術で構成
– Overlap Patch Merging
– Efficient Self-Attention
– Mix-FFN

7
Overlap Patch Merging
• 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ，階層𝑖 + 1の特
徴マップ𝐹𝑖+1に変換する技術
– 𝐹𝑖
𝐻
2𝑖+1 ×
𝑊
2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖
• パッチの連続性を保持するためにパッチサイズ𝐾，ス
トライド幅𝑆，パディングサイズ𝑃を指定
– 入力の場合，1パッチが特徴マップ4×4に対応
• 𝐾 = 7, 𝑆 = 4, 𝑃 = 3
– それ以外，1パッチが特徴マップ2×2に対応
• 𝐾 = 3, 𝑆 = 2, 𝑃 = 1
高さ幅次元数

8
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
Self-Attentionは以下の式となり，クエリとキーの次元数が
𝑁 × 𝐶であることから，計算量𝑶(𝑵𝟐
)となる
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑ℎ𝑒𝑎𝑑
𝑉
𝑄：クエリ
𝐾：キー
𝑉：値
𝐻：入力画像の高さ
𝑊：入力画像の幅
𝑁 = 𝐻 × 𝑊：シーケンス長
𝐶：特徴マップの次元数

9
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
ここで、PVT[2]で導入された以下の手法を取り入れる
𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒
𝑁
𝑅
, 𝐶・𝑅 𝐾
𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾)
削減率𝑅 = [64,16,4,1]を階層ごとに用いることで，キー𝐾の次
元数を𝑁 × 𝐶から
𝑵
𝑹
× 𝑪に変換し，計算量を𝑶(
𝑵𝟐
𝑹
)に削減
𝐾：キー
𝑁 = 𝐻 × 𝑊：シーケンス長
𝐶：特徴マップの次元数
[2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision
transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021

10
Mix-FFN
• FFN (Feed-Forward Network)の畳み込みで動
的に位置埋め込みを行う技術
𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛
– 畳み込み層で位置情報を集約可能
• CPVT[3]やPosENet[4]からinspire
𝑥𝑖𝑛 ：入力
𝑥𝑜𝑢𝑡 ：出力
𝑀𝐿𝑃 ：多重線形層
𝐺𝐸𝐿𝑈 ：GELU活性化関数
𝐶𝑜𝑛𝑣 ：畳み込み層
[3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for
vision transformers. arXiv, 2021
[4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020

11
デコーダ
• MLPのみで構成されるAll-MLP
– 4つのステップで構成
𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖
𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒
𝐻
4
×
𝑊
4
𝐹𝑖 , ∀𝑖
𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖
𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹
出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる
𝐶：MLPの次元数
𝐶𝑖：特徴マップの次元数
𝐹𝑖：階層𝑖の出力

12
All-MLPの効果
• ERF(Effective Receptive Field)を可視化
– ERFとは
• 保持している特徴マップの情報度合い
– CNNベースのDeepLabV3+[5]と提案手法を比較
• 提案手法はStage-4で広範囲を抽出できる
• 提案手法はMLPを通すことでより局所的な特徴を抽出
以上より提案手法はシンプルな構造に関わらず，局所的な特徴と
広域的な特徴を両方抽出可能
データセット：Cityscapes[6]
Stage1~4：エンコーダの段階
Head：デコーダ後
[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable
convolution for semantic image segmentation. In ECCV, 2018
[6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016

13
実験設定
• 使用データセット
– Cityscapes，ADE20K[7]，COCO-Stuff[8]
• 事前学習
– エンコーダ：Imagenet-1K[9]のデータセット
– デコーダ：ランダムに初期化
• MiT(Mix Transformer encoders)
– 同じSegFormer構造でパラメータ数が異なるモデルを
MiT0~5まで用意
• 評価指標
– mIoU
[7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In
CVPR, 2017
[8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018

14
実験①モデルサイズの影響
• MiT0~5を比較
– デコーダのパラメータ数が小さく軽量
– どのデータセットに対しても，パラメータが多い
ほど高性能
mIoUのSS/MSはシングルスケールとマルチスケールを示す

15
実験②動的位置埋め込みの有効性
• Mix-FFNとViTの位置埋め込みを比較
– どちらの解像度も提案手法が高性能
– 提案手法の方が入力の解像度に対するロバスト性が高い
PE：ViTの位置埋め込み
Mix-FFN：提案手法の動的位置埋め込み
・Cityscapesを1024×1024サイズで学習させる
・PEは入力サイズに合わせて伸縮させる

16
実験③提案手法の性能
• SoTAとの比較
– MiT-B0を見ると，スピードと性能はトレードオフ
– 提案手法は軽量だが，高性能
MiT-B0は入力画像の高さを{1024,768,640,512}と変化

17
実験④様々な環境下でのロバスト性
• ブラー，ノイズ，デジタル，天候要因の入力に対し
て，DeepLabV3+や他の手法と比較
– 提案手法は様々な環境下で強いロバスト性を持つ
• 自動運転のような，ロバスト性が重要なタスクで活きる
Cityscapes-C[9]というCityscapesを拡張したデータセットを使用
[9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020

18
まとめ
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力
なセマンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は，固定サイズの位置埋め込みを用いない
階層型Transformerの構造
– デコーダ部分は，複雑性や計算コストを抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、SoTAを記録

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Similaire à SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (20)

Plus de harmonylab

Plus de harmonylab (20)

Dernier

Dernier (10)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers