SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
DEEP LEARNING JP
[DL Papers]
One-Shot Domain Adaptive and Generalizable Semantic
Segmentation with Class-Aware Cross-DomainTransformers
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1
書誌情報
• タイトル
– One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-
Aware Cross-Domain Transformers
• 著者
– Rui Gong1, Qin Wang1, Dengxin Dai2, Luc Van Gool1,3
– 1Computer Vision Lab, ETH Zurich, 2MPI for Informatics, 3VISICS, KU Leuven
• 投稿時間
– 2022/12/14(Arxiv)
• Paper
– https://arxiv.org/abs/2212.07292
2
Introduction
• モチベーション
– Target domainの収集が難しいタスクを解決したい
• one-shot unsupervised domain adaptation (OSUDA)の提案
– source domainの空間的な構造情報とtargetのスタイルを利用して、pseudo-target
domainを生成
– class-aware cross-domain transformersという機構を提案してdomain-invariant 特徴
を抽出
– Target domainと見た目が類似する画像を入力とすることで、 one-shot domain
generalization (OSDG) 手法として拡張可能
3
提案手法の概要
• ベースはpseudo-label based self-training strategy(mean-teacher
framework)
– intermediate domain randomization (IDR) を提案し、domain gapの削減を目指す
– Teacher netは最終の出力を推定、Student netはTeacher netを更新
– domain-invariant情報を取得するためのattentionを提案
4
提案手法の詳細 - Pseudo-Target Domainの作成
• Pseudo-Target Domain for Style Alignment
– Image translationで、source domainをone-shot targetのスタイルに生成(拡張)
• One-shotという制約は過学習が起こりやすいため
– Pseudo-Target Domain: ො
𝑥𝑖
𝑠
= 𝒮 𝑥𝑖
𝑠
𝑥𝑡
– off-the-shelf手法MUNITで生成(weighted perceptual lossを採用)
– Pseudo-Target Domainに対し、cross entropyで最適化(ℒ𝑝𝑡)
• スタイルによるdomain gapを軽減
5
提案手法の詳細 - class-mixed sampling
• Pseudo-Target Domainは空間的構造によるdomain gapを解消できない
• class-mixed samplingでPseudo-Target Domain上で、sourceの空間的構造
をrandomize
6
提案手法の詳細 - class-mixed sampling
• Pseudo targetから、c個クラスをsamplingして、maskを生成
• intermediate domain sampleを生成
• Pseudo label෤
𝑦𝑗
𝑠
を利用することで、source domainへのoverfittingを防ぐ
• intermediate domainに対してもcross entropyで最適化可能(ℒ𝑖𝑑𝑟)
7
提案手法の詳細 - Class-Aware Cross-Domain Transformers
• domain-invariant情報の学習も重要
• 既存のlocalな情報に注目する手法(local patch-wise prototypical matching
など)は、globalなinvariant情報の学習が課題
– Transformerはglobalな情報を取得可能
• Cross Transformer: pseudo targetをqueryとする
8
提案手法の詳細 - Class-Aware Cross-Domain Transformers
• Class-Aware Cross-Domain attention(CACDA)を提案
– Pseudo target sampleからスタイル情報、 intermediate domain sampleから空間的構
造情報からdomain-invariant情報を学習
– cross entropyで最適化(ℒ𝑐𝑑)
9
実験結果 - OSUDA
• SOTAを達成
• Few-shot手法にも勝てる
10
実験結果 - Pseudo targetの生成
• Perceptual lossの重みを高く設定して、targetのスタイルに接近
• 学習ベースでない手法フーリエ変換は、アーティファクトが多い
– OSDGでは効果あり
11
実験結果 - OSDG
• OSDGでもSOTAを達成
12
実験結果 – ablation study
• 提案手法の有効性を確認
– スタイルと空間的構造の情報からdomain-invariant情報を学習できた
13
実験結果 – ablation study
• Class Mixed Sampling based IDR vs. other IDR methods
– 空間的構造のsamplingも有効
14
実験結果 – ablation study
• Comparison to Cross-Domain Transformer Variants
– intermediate domain representation(IDR)に対してcross attentionをかけることは、
domain-invariant情報取得を促進(?)
– Pseudo domainをattentionの対象にした方が効果的
• Pseudo domainはsourceとのgapが小さいため
15
まとめ
• One-shot unsupervised domain adaptation手法を提案
– スタイル変換により、pseudo target domainを生成
– 空間的構造も同時にsamplingするintermedia domain representationを生成
– pseudo target domainとintermedia domain representationを対象に、 Class-Aware
Cross-Domain attentionにより、domain-invariant情報を抽出
– One-shot domain generalizationに拡張可能
• 所感
– One-shotの画像に依存(?)関連情報がない
– intermediate domainサンプルは空間的構造より、pseudo targetとsourceの中間の表
現となる。中間的な表現で、学習をしやすくする
16

Contenu connexe

Similaire à 【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

Similaire à 【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers (14)

GKE multi-cluster Ingress
GKE multi-cluster IngressGKE multi-cluster Ingress
GKE multi-cluster Ingress
 
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
 
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
ICDE2012勉強会:Social Media
ICDE2012勉強会:Social MediaICDE2012勉強会:Social Media
ICDE2012勉強会:Social Media
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
 
ソフトウェア・デファインドが再定義するストレージ -- OpenStackデファクト標準ストレージCeph - OpenStack最新情報セミナー 201...
ソフトウェア・デファインドが再定義するストレージ -- OpenStackデファクト標準ストレージCeph - OpenStack最新情報セミナー 201...ソフトウェア・デファインドが再定義するストレージ -- OpenStackデファクト標準ストレージCeph - OpenStack最新情報セミナー 201...
ソフトウェア・デファインドが再定義するストレージ -- OpenStackデファクト標準ストレージCeph - OpenStack最新情報セミナー 201...
 
Mexico ops meetup発表資料 20170905
Mexico ops meetup発表資料 20170905Mexico ops meetup発表資料 20170905
Mexico ops meetup発表資料 20170905
 
ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
 
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 ) 研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Dernier

Dernier (7)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers

  • 1. DEEP LEARNING JP [DL Papers] One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-DomainTransformers Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
  • 2. 書誌情報 • タイトル – One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class- Aware Cross-Domain Transformers • 著者 – Rui Gong1, Qin Wang1, Dengxin Dai2, Luc Van Gool1,3 – 1Computer Vision Lab, ETH Zurich, 2MPI for Informatics, 3VISICS, KU Leuven • 投稿時間 – 2022/12/14(Arxiv) • Paper – https://arxiv.org/abs/2212.07292 2
  • 3. Introduction • モチベーション – Target domainの収集が難しいタスクを解決したい • one-shot unsupervised domain adaptation (OSUDA)の提案 – source domainの空間的な構造情報とtargetのスタイルを利用して、pseudo-target domainを生成 – class-aware cross-domain transformersという機構を提案してdomain-invariant 特徴 を抽出 – Target domainと見た目が類似する画像を入力とすることで、 one-shot domain generalization (OSDG) 手法として拡張可能 3
  • 4. 提案手法の概要 • ベースはpseudo-label based self-training strategy(mean-teacher framework) – intermediate domain randomization (IDR) を提案し、domain gapの削減を目指す – Teacher netは最終の出力を推定、Student netはTeacher netを更新 – domain-invariant情報を取得するためのattentionを提案 4
  • 5. 提案手法の詳細 - Pseudo-Target Domainの作成 • Pseudo-Target Domain for Style Alignment – Image translationで、source domainをone-shot targetのスタイルに生成(拡張) • One-shotという制約は過学習が起こりやすいため – Pseudo-Target Domain: ො 𝑥𝑖 𝑠 = 𝒮 𝑥𝑖 𝑠 𝑥𝑡 – off-the-shelf手法MUNITで生成(weighted perceptual lossを採用) – Pseudo-Target Domainに対し、cross entropyで最適化(ℒ𝑝𝑡) • スタイルによるdomain gapを軽減 5
  • 6. 提案手法の詳細 - class-mixed sampling • Pseudo-Target Domainは空間的構造によるdomain gapを解消できない • class-mixed samplingでPseudo-Target Domain上で、sourceの空間的構造 をrandomize 6
  • 7. 提案手法の詳細 - class-mixed sampling • Pseudo targetから、c個クラスをsamplingして、maskを生成 • intermediate domain sampleを生成 • Pseudo label෤ 𝑦𝑗 𝑠 を利用することで、source domainへのoverfittingを防ぐ • intermediate domainに対してもcross entropyで最適化可能(ℒ𝑖𝑑𝑟) 7
  • 8. 提案手法の詳細 - Class-Aware Cross-Domain Transformers • domain-invariant情報の学習も重要 • 既存のlocalな情報に注目する手法(local patch-wise prototypical matching など)は、globalなinvariant情報の学習が課題 – Transformerはglobalな情報を取得可能 • Cross Transformer: pseudo targetをqueryとする 8
  • 9. 提案手法の詳細 - Class-Aware Cross-Domain Transformers • Class-Aware Cross-Domain attention(CACDA)を提案 – Pseudo target sampleからスタイル情報、 intermediate domain sampleから空間的構 造情報からdomain-invariant情報を学習 – cross entropyで最適化(ℒ𝑐𝑑) 9
  • 10. 実験結果 - OSUDA • SOTAを達成 • Few-shot手法にも勝てる 10
  • 11. 実験結果 - Pseudo targetの生成 • Perceptual lossの重みを高く設定して、targetのスタイルに接近 • 学習ベースでない手法フーリエ変換は、アーティファクトが多い – OSDGでは効果あり 11
  • 12. 実験結果 - OSDG • OSDGでもSOTAを達成 12
  • 13. 実験結果 – ablation study • 提案手法の有効性を確認 – スタイルと空間的構造の情報からdomain-invariant情報を学習できた 13
  • 14. 実験結果 – ablation study • Class Mixed Sampling based IDR vs. other IDR methods – 空間的構造のsamplingも有効 14
  • 15. 実験結果 – ablation study • Comparison to Cross-Domain Transformer Variants – intermediate domain representation(IDR)に対してcross attentionをかけることは、 domain-invariant情報取得を促進(?) – Pseudo domainをattentionの対象にした方が効果的 • Pseudo domainはsourceとのgapが小さいため 15
  • 16. まとめ • One-shot unsupervised domain adaptation手法を提案 – スタイル変換により、pseudo target domainを生成 – 空間的構造も同時にsamplingするintermedia domain representationを生成 – pseudo target domainとintermedia domain representationを対象に、 Class-Aware Cross-Domain attentionにより、domain-invariant情報を抽出 – One-shot domain generalizationに拡張可能 • 所感 – One-shotの画像に依存(?)関連情報がない – intermediate domainサンプルは空間的構造より、pseudo targetとsourceの中間の表 現となる。中間的な表現で、学習をしやすくする 16