【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

DEEP LEARNING JP
[DL Papers]
One-Shot Domain Adaptive and Generalizable Semantic
Segmentation with Class-Aware Cross-DomainTransformers
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1

書誌情報
• タイトル
– One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-
Aware Cross-Domain Transformers
• 著者
– Rui Gong1, Qin Wang1, Dengxin Dai2, Luc Van Gool1,3
– 1Computer Vision Lab, ETH Zurich, 2MPI for Informatics, 3VISICS, KU Leuven
• 投稿時間
– 2022/12/14(Arxiv)
• Paper
– https://arxiv.org/abs/2212.07292
2

Introduction
• モチベーション
– Target domainの収集が難しいタスクを解決したい
• one-shot unsupervised domain adaptation (OSUDA)の提案
– source domainの空間的な構造情報とtargetのスタイルを利用して、pseudo-target
domainを生成
– class-aware cross-domain transformersという機構を提案してdomain-invariant 特徴
を抽出
– Target domainと見た目が類似する画像を入力とすることで、 one-shot domain
generalization (OSDG) 手法として拡張可能
3

提案手法の概要
• ベースはpseudo-label based self-training strategy（mean-teacher
framework）
– intermediate domain randomization (IDR) を提案し、domain gapの削減を目指す
– Teacher netは最終の出力を推定、Student netはTeacher netを更新
– domain-invariant情報を取得するためのattentionを提案
4

提案手法の詳細 - Pseudo-Target Domainの作成
• Pseudo-Target Domain for Style Alignment
– Image translationで、source domainをone-shot targetのスタイルに生成（拡張）
• One-shotという制約は過学習が起こりやすいため
– Pseudo-Target Domain: ො
𝑥𝑖
𝑠
= 𝒮 𝑥𝑖
𝑠
𝑥𝑡
– off-the-shelf手法MUNITで生成（weighted perceptual lossを採用）
– Pseudo-Target Domainに対し、cross entropyで最適化（ℒ𝑝𝑡）
• スタイルによるdomain gapを軽減
5

提案手法の詳細 - class-mixed sampling
• Pseudo-Target Domainは空間的構造によるdomain gapを解消できない
• class-mixed samplingでPseudo-Target Domain上で、sourceの空間的構造
をrandomize
6

提案手法の詳細 - class-mixed sampling
• Pseudo targetから、c個クラスをsamplingして、maskを生成
• intermediate domain sampleを生成
• Pseudo label෤
𝑦𝑗
𝑠
を利用することで、source domainへのoverfittingを防ぐ
• intermediate domainに対してもcross entropyで最適化可能（ℒ𝑖𝑑𝑟）
7

提案手法の詳細 - Class-Aware Cross-Domain Transformers
• domain-invariant情報の学習も重要
• 既存のlocalな情報に注目する手法（local patch-wise prototypical matching
など）は、globalなinvariant情報の学習が課題
– Transformerはglobalな情報を取得可能
• Cross Transformer: pseudo targetをqueryとする
8

提案手法の詳細 - Class-Aware Cross-Domain Transformers
• Class-Aware Cross-Domain attention（CACDA）を提案
– Pseudo target sampleからスタイル情報、 intermediate domain sampleから空間的構
造情報からdomain-invariant情報を学習
– cross entropyで最適化（ℒ𝑐𝑑）
9

実験結果 - OSUDA
• SOTAを達成
• Few-shot手法にも勝てる
10

実験結果 - Pseudo targetの生成
• Perceptual lossの重みを高く設定して、targetのスタイルに接近
• 学習ベースでない手法フーリエ変換は、アーティファクトが多い
– OSDGでは効果あり
11

実験結果 - OSDG
• OSDGでもSOTAを達成
12

実験結果 – ablation study
• 提案手法の有効性を確認
– スタイルと空間的構造の情報からdomain-invariant情報を学習できた
13

• Class Mixed Sampling based IDR vs. other IDR methods
– 空間的構造のsamplingも有効
14

• Comparison to Cross-Domain Transformer Variants
– intermediate domain representation(IDR)に対してcross attentionをかけることは、
domain-invariant情報取得を促進（？）
– Pseudo domainをattentionの対象にした方が効果的
• Pseudo domainはsourceとのgapが小さいため
15

まとめ
• One-shot unsupervised domain adaptation手法を提案
– スタイル変換により、pseudo target domainを生成
– 空間的構造も同時にsamplingするintermedia domain representationを生成
– pseudo target domainとintermedia domain representationを対象に、 Class-Aware
Cross-Domain attentionにより、domain-invariant情報を抽出
– One-shot domain generalizationに拡張可能
• 所感
– One-shotの画像に依存（？）関連情報がない
– intermediate domainサンプルは空間的構造より、pseudo targetとsourceの中間の表
現となる。中間的な表現で、学習をしやすくする
16

【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

Recommandé

Recommandé

Contenu connexe

Similaire à 【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

Similaire à 【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers (14)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (7)

【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers