SlideShare une entreprise Scribd logo
1  sur  26
http://deeplearning.jp/
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
小林 範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
https://arxiv.org/abs/2201.00520
タイトル:
著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識
分野に導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが
可能となり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど
のSOTAとされるモデルよりも高い精度を記録した。
概要:
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
4
• Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。
• Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、
より良い特徴量を取得することが可能となる。
• 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。
• 必要とするメモリが大きい
• 高い計算コスト
• 学習の収束の遅延
• 過学習の危険性
• これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、
Pyramid Vision Transformer (PVT)や Swin Transformer などがある。
ViTのデメリット
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
5
• PVT や SwinTransformer は、画像内の領域をある程度絞り
込んだ箇所に対して Attention を行うことでメモリ効率や計算効
率を向上。
• 一方で、画像内の領域を絞り込むため、本来の領域から取得で
きた広範な関係性の情報を失っている可能性がある。
• 領域を絞り込む際に、より影響関係がある領域を選択できるよう
な Deformable self-attention を利用するDeformable
Attention Transformer(DAT) を提案。
• 従来の画像処理モデルよりも効率や性能を向上させることに成功。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
Vision Transformer(ViT, Dosovitskiy et al. 2020)
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用すること
に成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
画像パッチ(9つのパッチ)として入力
出典:https://arxiv.org/pdf/2010.11929.pdf
2. 先行研究
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7
Pyramid Vision Transformer (PVT)
• 計算コストを抑えるためにダウンサンプリングする
出典:https://arxiv.org/pdf/2102.12122.pdf
2. 先行研究
Swin Transformer
• これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。
• ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可
能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。
• 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。
• ローカルウィンドウを利用することで Attention 範囲を
制限する
https://arxiv.org/pdf/2103.14030.pdf
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8
Deformable Convolution Networks(DCN)
• このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、
実用的ではなくなるという問題があった。
出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf
2. 先行研究
• 受容野を画像にあわせて柔軟に変形するモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9
Deformable DETR
• 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。
出典:https://arxiv.org/pdf/2010.04159.pdf
2. 先行研究
• Transformer とCNN を組み合わせたことで高精度
を達成した DETR に Deformable モジュールを組み
込んだモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attention Transformer(DAT)
10
• 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。
• 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。
Deformable Attention(DA)
• Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を
行うことで、効率よくトークン間の関係性をモデリングすることが可能。
• オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる
Attention 領域を決定する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法
DCNとの違い
• DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。
• DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年
の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら
れているため。
• このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた
キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。
3×3のDC(画像が𝐻 × 𝑊 × 𝐶)
→ 9 × 𝐻 × 𝑊 × 𝐶
Deformable Attention Transformer(DAT)
Transformerに適用した場合
→𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊)
※計算コストが高すぎて、実用的でない。
計算コスト
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
12
① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。
② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点
(Reference Points)として生成される。
③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。
(Top-left=(-1,-1))
④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
13
⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。
※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。
(∆𝑝 ← 𝑠 tanh(∆𝑝))
⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。
⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
14
⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊
𝑣 を得る。
⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
オフセット生成
15
Deformable Attention
• Deformable Attention では、オフセット生成のために、サブネットワークを利用し
ている。
• このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。
• 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ
フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。
• そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット
ワークを実装している。
サブネットワークの流れ
① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。
② GELU活性化関数に通す。
③1×1の畳み込みを行い、オフセット値を獲得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
16
Deformable Attention
オフセットグループ
• Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、
Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。)
• 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用
している。
• 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、
確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ
るような作りとなっている。
Deformable relative position bias
• 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置
をエンコードする。これにより、空間情報で通常の Attention
が強化されることになる。
• DATでは、正規化の値、ポジションエンベディングとして、可能な
すべてのオフセット値をカバーするための連続的な相対変位が行
われている。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
17
計算コストについて
• Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など
似たような計算コストになる。異なる点は、オフセットネットワークの計算量。
• 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2
• Swin-T(H=W = 14, Ns= 49, C= 384)との比較
• Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程
度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
18
モデルアーキテクチャ
• DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的
特徴量ピラミッドを形成する。
• Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も
広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド
ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。
• Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより
広域の関係性をモデリングすることが可能となる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
3. 手法
モデルアーキテクチャ
• 分類タスクでは、最初に最終段階から出力された特徴マップを正規
化し、次にロジットを予測するためにプールされた特徴を持つ線形
分類器を採用している。
• 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー
ンの役割を果たし、マルチスケールの特徴を抽出している。
• 物体検出、セマンティックセグメンテーションのデコーダーなどでは、
FPN のように次のモジュールにフィードする前に、各ステージの機能
に正規化レイヤーを追加している。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ImageNet1K を用いた実験
20
4. 実験
画像枚数:学習用1.28M 検証用50K
オプティマイザ:AdamW
エポック:300
初期学習率:1 × 10−3
(ウオームアップ 1 × 10−6→1 × 10−3)
(cosine learning rate decay)
データ拡張:RandAugment 、 Mixup、CutMix
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
COCO Object Detection を用いた実験
21
4. 実験
• RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。
• Swin Transformer モデルなどと比べよい成果を出している。
• 特により大きな物体の検出が得意であることがわかった。
画像枚数:学習用118K 検証用5K
実験設定
事前学習:ImageNet-1K(300エポック)
パラメータ:SwinTransformerと同じ
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ADE20K
22
4. 実験
画像枚数:学習用20K 検証用2K
• SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。
• mIOU スコアで比較され、全体としてよりよい精度を出した。
• 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。
SemanticFPN と UperNet のバックボーンネットワークとして利用
事前学習:ImageNet-1K
学習:SemanticFPN 40ステップ、UperNet 160K
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アブレーションスタディ
23
4. 実験
• オフセットとポジションエンベディングの必要性の確認
• Deformable Attention の有効なステージの確認
P:SRA attention
S:Shift Window attention
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
可視化実験
24
4. 実験
• より重要な領域に対して参照点が変形されていることを確認。
(各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. まとめ
結論
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に
導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と
なり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの
SOTAとされるモデルよりも高い精度を記録した。
25
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image
recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
• Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:
Hierarchical vision transformer using shifted windows. ICCV, 2021.
• Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks.
In ICCV, pages 764–773, 2017.
• Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid
vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021
• Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for
end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020.
26

Contenu connexe

Tendances

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 

Tendances (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 

Similaire à [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
アジャイルにモデリングは必要か
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要かHiromasa Oka
 
論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable AttentionKazunariHemmi
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternRIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternMami Shiino
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望についてKen Azuma
 
SAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Institute Japan
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶShumpei Shiraishi
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!guestc06e54
 
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learnedエンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons LearnedDaiki Kawanuma
 
アテンションモデルの注意深い調査
アテンションモデルの注意深い調査アテンションモデルの注意深い調査
アテンションモデルの注意深い調査MichihiroSHONAI
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)CLOUDIAN KK
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術Preferred Networks
 
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチMonadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチTomoharu ASAMI
 
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】Tomoharu ASAMI
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~Masanori Itoh
 
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010Yusuke Suzuki
 

Similaire à [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) (20)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
アジャイルにモデリングは必要か
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要か
 
論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention
 
Mvpvm pattern
Mvpvm patternMvpvm pattern
Mvpvm pattern
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternRIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
SAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリング
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
 
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learnedエンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
 
アテンションモデルの注意深い調査
アテンションモデルの注意深い調査アテンションモデルの注意深い調査
アテンションモデルの注意深い調査
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチMonadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
 
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~
 
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Dernier (8)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

  • 1. http://deeplearning.jp/ Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) 小林 範久 Present Square Co.,Ltd. DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) https://arxiv.org/abs/2201.00520 タイトル: 著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識 分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが 可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど のSOTAとされるモデルよりも高い精度を記録した。 概要: 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 4 • Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、 より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 • 必要とするメモリが大きい • 高い計算コスト • 学習の収束の遅延 • 過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT)や Swin Transformer などがある。 ViTのデメリット
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 5 • PVT や SwinTransformer は、画像内の領域をある程度絞り 込んだ箇所に対して Attention を行うことでメモリ効率や計算効 率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得で きた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるよう な Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用すること に成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 画像パッチ(9つのパッチ)として入力 出典:https://arxiv.org/pdf/2010.11929.pdf 2. 先行研究
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7 Pyramid Vision Transformer (PVT) • 計算コストを抑えるためにダウンサンプリングする 出典:https://arxiv.org/pdf/2102.12122.pdf 2. 先行研究 Swin Transformer • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可 能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 • ローカルウィンドウを利用することで Attention 範囲を 制限する https://arxiv.org/pdf/2103.14030.pdf
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8 Deformable Convolution Networks(DCN) • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、 実用的ではなくなるという問題があった。 出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf 2. 先行研究 • 受容野を画像にあわせて柔軟に変形するモデル。
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9 Deformable DETR • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 出典:https://arxiv.org/pdf/2010.04159.pdf 2. 先行研究 • Transformer とCNN を組み合わせたことで高精度 を達成した DETR に Deformable モジュールを組み 込んだモデル。
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attention Transformer(DAT) 10 • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention(DA) • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を 行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11 3. 手法 DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年 の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら れているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。 3×3のDC(画像が𝐻 × 𝑊 × 𝐶) → 9 × 𝐻 × 𝑊 × 𝐶 Deformable Attention Transformer(DAT) Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊) ※計算コストが高すぎて、実用的でない。 計算コスト
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 12 ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点 (Reference Points)として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。 (Top-left=(-1,-1)) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 13 ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。 (∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 14 ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊 𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 オフセット生成 15 Deformable Attention • Deformable Attention では、オフセット生成のために、サブネットワークを利用し ている。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット ワークを実装している。 サブネットワークの流れ ① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③1×1の畳み込みを行い、オフセット値を獲得する。
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 16 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、 Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。) • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用 している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、 確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ るような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置 をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能な すべてのオフセット値をカバーするための連続的な相対変位が行 われている。
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 17 計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など 似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2 • Swin-T(H=W = 14, Ns= 49, C= 384)との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程 度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 18 モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的 特徴量ピラミッドを形成する。 • Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も 広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。 • Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより 広域の関係性をモデリングすることが可能となる。
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19 3. 手法 モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規 化し、次にロジットを予測するためにプールされた特徴を持つ線形 分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー ンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能 に正規化レイヤーを追加している。
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ImageNet1K を用いた実験 20 4. 実験 画像枚数:学習用1.28M 検証用50K オプティマイザ:AdamW エポック:300 初期学習率:1 × 10−3 (ウオームアップ 1 × 10−6→1 × 10−3) (cosine learning rate decay) データ拡張:RandAugment 、 Mixup、CutMix
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. COCO Object Detection を用いた実験 21 4. 実験 • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 • Swin Transformer モデルなどと比べよい成果を出している。 • 特により大きな物体の検出が得意であることがわかった。 画像枚数:学習用118K 検証用5K 実験設定 事前学習:ImageNet-1K(300エポック) パラメータ:SwinTransformerと同じ
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ADE20K 22 4. 実験 画像枚数:学習用20K 検証用2K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 SemanticFPN と UperNet のバックボーンネットワークとして利用 事前学習:ImageNet-1K 学習:SemanticFPN 40ステップ、UperNet 160K
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アブレーションスタディ 23 4. 実験 • オフセットとポジションエンベディングの必要性の確認 • Deformable Attention の有効なステージの確認 P:SRA attention S:Shift Window attention
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 可視化実験 24 4. 実験 • より重要な領域に対して参照点が変形されていることを確認。 (各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. まとめ 結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に 導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と なり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 25
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 26