Contenu connexe Similaire à 2020 08 05_dl_DETR (20) 2020 08 05_dl_DETR2. 論文情報
• タイトル
End-to-End Object Detection with Transformers
• 著者
Nicolas Carion,Francisco Massa,Gabriel Synnaeve,Nicolas
Usunier,Alexander Kirillov,and Sergey Zagoruyko
Facebook AI
• まとめ
Detection Transformer(DETR)という新しいフレームワークによって、NMSやア
ンカー生成のような人の手で設計する部分の必要なく、End-to-Endで物体と画像
全体の関係から予測の集合を生成する。
競合手法(Faster R-CNN)と同等の性能を発揮。
• 実装
https://github.com/facebookresearch/detr
2
4. 直接集合予測
• 直接集合予測
• Transformer encode/decoderで画像中全ての物体を一度に予測
•self-attentionが要素間のpairwise相互作用をモデル化
• 予測が集合であるため、それらを正解と紐づけて損失計算する必要がある
•二部マッチングを使った損失を設計
–適切な予測と正解の組み合わせをハンガリアン法で見つける
4
6. 1.Object detection set prediction loss
• 二部マッチング
• 正解と予測のpair-wise matching cost: Lmatch
•物体数N(画像一枚中の物体数の固定値を大きめに100と設定)とし、順列𝜎をハン
ガリアン法で探索し正解と予測のロスが最小コストの組み合わせを見つける
–物体がない場合no object でpadding (例えば物体数2の時は98個がno object)
•正解𝑦𝑖は「クラスラベル𝑐𝑖」と「𝑏𝑏𝑜𝑥の中心座標と幅・高さの𝑏𝑖」
•各組み合わせの損失計算:クラス損失とbbox損失の和
•bbox損失は一般的なl1損失と、bboxのスケールの影響を受けないGIoU損失
6
探索した最小コストとなる組み合わせ
Lmatchの中身
10. DETR architecture
2. encoder-decoder transformer
• Transformer encoder
•特徴マップfを1×1畳み込みでチャネル次元をdへ削減して新たな特徴マップへ
•エンコーダへシーケンスとして入力のために1次元の特徴マップに変換
•これにpositional encodingを付加しエンコーダで処理
–Self-attentionで要素間の対応関係を学習
–Feed Forward Networkを通過
–これを6層繰り返す
10
11. DETR architecture
2. encoder-decoder transformer
• Transformer decoder
•入力はobject queries(出力位置付加)、エンコーダのメモリ
•複数のMulti-head (self )Attentionにより要素間の対応関係を学習
•object queriesは出力次元d,N個(物体数)のembeddingに変換される
•embedding(d,N)がfeed forward networkに渡される
11
12. DETR architecture
3. Feed forward network
• FFN(feed forward network)
•ReLUを活性化関数とする2層の1×1 convolutionで構成
•d次元,N個のembeddingを入力として受け取る
•正規化されたbbox中心座標と幅・高さと, クラスラベルが出力
–実際の物体数のより大きいN個(100個)を予測するので∅ (no object)でpadding
従来の物体検出におけるbackgroundクラスと同様の役割
• Auxiliary loss
•各デコーダ層の後にハンガリアンロス
–正しい物体数を出力するのを助ける役割
12
13. Experiments(R-CNNとDETR比較)
• データセット:COCO, panoptic segmentation datasets(後ほどのセグメンテーションで使用)
• バックボーン:Resnet-50,Resnet-101(ImageNet-pretrained)
• DC5:Resnetの最終層のストライド削除して特徴量解像度を増加
• FPN:Feature Pylamid Network
• +:genelized IOU,random crop augumentaiton,long training
13
22. DETR for panoptic segmentation
Panoptic Sgmentation(物体検出+セグメンテーション)
• FasterR-CNN等と同様にmask headの追加で拡張可能
22
Qualitative results
23. DETR for panoptic segmentation
• 評価
• PQ:panoptic quality
• things(車・人等)
• Stuff(草原・空等)
• 他手法と同等の精度
•stuffで優位
–従来手法の方なアンカーや提案領域を用いた局所推論ではなく、attention
による大域的な推論が影響している様子
23