[DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）

http://deeplearning.jp/
Vision Transformer with Deformable Attention
（Deformable Attention Transformer：DAT）
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Vision Transformer with Deformable Attention
（Deformable Attention Transformer：DAT）
https://arxiv.org/abs/2201.00520
タイトル：
著者： Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識
分野に導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが
可能となり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど
のSOTAとされるモデルよりも高い精度を記録した。
概要：
2

アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3

１. 導入
背景
4
• Vision Transformer（ViT）が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。
• Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、
より良い特徴量を取得することが可能となる。
• 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。
• 必要とするメモリが大きい
• 高い計算コスト
• 学習の収束の遅延
• 過学習の危険性
• これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、
Pyramid Vision Transformer (PVT）や Swin Transformer などがある。
ViTのデメリット

１. 導入
背景
5
• PVT や SwinTransformer は、画像内の領域をある程度絞り
込んだ箇所に対して Attention を行うことでメモリ効率や計算効
率を向上。
• 一方で、画像内の領域を絞り込むため、本来の領域から取得で
きた広範な関係性の情報を失っている可能性がある。
• 領域を絞り込む際に、より影響関係がある領域を選択できるよう
な Deformable self-attention を利用するDeformable
Attention Transformer(DAT) を提案。
• 従来の画像処理モデルよりも効率や性能を向上させることに成功。

Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
Vision Transformer（ViT, Dosovitskiy et al. 2020）
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用すること
に成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
画像パッチ（9つのパッチ）として入力
出典：https://arxiv.org/pdf/2010.11929.pdf
２. 先行研究

Pyramid Vision Transformer (PVT）
• 計算コストを抑えるためにダウンサンプリングする
２. 先行研究
Swin Transformer
• これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。
• ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可
能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。
• 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。
• ローカルウィンドウを利用することで Attention 範囲を
制限する
https://arxiv.org/pdf/2103.14030.pdf

Deformable Convolution Networks（DCN）
• このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、
実用的ではなくなるという問題があった。
出典：https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf
２. 先行研究
• 受容野を画像にあわせて柔軟に変形するモデル。

Deformable DETR
• 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。
２. 先行研究
• Transformer とCNN を組み合わせたことで高精度
を達成した DETR に Deformable モジュールを組み
込んだモデル。

３. 手法
Deformable Attention Transformer（DAT）
10
• 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。
• 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。
Deformable Attention（DA）
• Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を
行うことで、効率よくトークン間の関係性をモデリングすることが可能。
• オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる
Attention 領域を決定する。

３. 手法
DCNとの違い
• DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。
• DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年
の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら
れているため。
• このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた
キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。
3×3のDC（画像が𝐻 × 𝑊 × 𝐶）
→ 9 × 𝐻 × 𝑊 × 𝐶
Deformable Attention Transformer（DAT）
Transformerに適用した場合
→𝑁𝑞 × 𝑁𝑘 × 𝐶（ 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊）
※計算コストが高すぎて、実用的でない。
計算コスト

３. 手法
Deformable Attentionの流れ
12
① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。
② 一様格子のピクセル 𝑝 （𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする）内の点)が参照点
（Reference Points）として生成される。
③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。
（Top-left＝（-1,-1）)
④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。

３. 手法
13
⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセットを生成する。
※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。
（∆𝑝 ← 𝑠 tanh(∆𝑝))
⑥ 参照点とオフセットの情報を足して、変形した参照点（Deformed Points）を得る。
⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。

３. 手法
14
⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 とバリュートークン 𝑣= 𝑥 𝑊
𝑣 を得る。
⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。

３. 手法
オフセット生成
15
Deformable Attention
• Deformable Attention では、オフセット生成のために、サブネットワークを利用し
ている。
• このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。
• 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ
フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。
• そのため、非線形活性化関数を用いた２つの畳み込みモジュールをもつサブネット
ワークを実装している。
サブネットワークの流れ
① k × k (論文では５×５）のデプスワイズ畳み込みによりローカル特徴量を獲得する。
② GELU活性化関数に通す。
③１×１の畳み込みを行い、オフセット値を獲得する。

３. 手法
16
Deformable Attention
オフセットグループ
• Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。（これは、
Multi-Head Self-Attention (MHSA）の手法と同様の考え方に基づくもの。）
• 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用
している。
• 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、
確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ
るような作りとなっている。
Deformable relative position bias
• 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置
をエンコードする。これにより、空間情報で通常の Attention
が強化されることになる。
• DATでは、正規化の値、ポジションエンベディングとして、可能な
すべてのオフセット値をカバーするための連続的な相対変位が行
われている。

３. 手法
17
計算コストについて
• Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など
似たような計算コストになる。異なる点は、オフセットネットワークの計算量。
• 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2
• Swin-T（H=W = 14, Ns= 49, C= 384）との比較
• Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程
度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。

３. 手法
18
モデルアーキテクチャ
• DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的
特徴量ピラミッドを形成する。
• Stage１及びStage２では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も
広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド
ウベースのローカルアテンション（Shift-Window Attention）でローカル部分の情報を統合している。
• Stage３及びStage４で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより
広域の関係性をモデリングすることが可能となる。

３. 手法
モデルアーキテクチャ
• 分類タスクでは、最初に最終段階から出力された特徴マップを正規
化し、次にロジットを予測するためにプールされた特徴を持つ線形
分類器を採用している。
• 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー
ンの役割を果たし、マルチスケールの特徴を抽出している。
• 物体検出、セマンティックセグメンテーションのデコーダーなどでは、
FPN のように次のモジュールにフィードする前に、各ステージの機能
に正規化レイヤーを追加している。

ImageNet1K を用いた実験
20
４. 実験
画像枚数：学習用1.28M 検証用50K
オプティマイザ：AdamW
エポック：300
初期学習率：1 × 10−3
（ウオームアップ 1 × 10−6→1 × 10−3）
（cosine learning rate decay）
データ拡張：RandAugment 、 Mixup、CutMix

COCO Object Detection を用いた実験
21
４. 実験
• RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。
• Swin Transformer モデルなどと比べよい成果を出している。
• 特により大きな物体の検出が得意であることがわかった。
画像枚数：学習用118K 検証用5K
実験設定
事前学習：ImageNet-1K（300エポック）
パラメータ：SwinTransformerと同じ

ADE20K
22
４. 実験
画像枚数：学習用20K 検証用2K
• SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。
• mIOU スコアで比較され、全体としてよりよい精度を出した。
• 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。
SemanticFPN と UperNet のバックボーンネットワークとして利用
事前学習：ImageNet-1K
学習：SemanticFPN 40ステップ、UperNet 160K

アブレーションスタディ
23
４. 実験
• オフセットとポジションエンベディングの必要性の確認
• Deformable Attention の有効なステージの確認
P：SRA attention
S：Shift Window attention

可視化実験
24
４. 実験
• より重要な領域に対して参照点が変形されていることを確認。
（各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。）

５. まとめ
結論
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に
導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と
なり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの
SOTAとされるモデルよりも高い精度を記録した。
25

Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image
recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
• Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:
Hierarchical vision transformer using shifted windows. ICCV, 2021.
• Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks.
In ICCV, pages 764–773, 2017.
• Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid
vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021
• Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for
end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020.
26

[DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）

Similaire à [DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT） (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (8)

[DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）