SlideShare une entreprise Scribd logo
1  sur  54
DEEP LEARNING JP
[DL Papers]
ドメイン転移と不変表現に関するサーベイ
(ICML2019が中心)
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
ドメイン転移と不変表現に関するサーベイ
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Unsupervised Adversarial Induction, NIPS2018
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
2
Outline
• ドメイン転移と不変表現学習
• 最近の研究動向(ICML2019が中心)
– 不変表現学習とJoint Errorのトレードオフ問題
– 教師なしドメイン適応におけるモデル選択問題
– メタ正則化による転移可能な表現の学習
– より難しい問題設定への取り組みについて
• まとめ
3
背景:ドメインシフト
4
P(X)
訓練
データ
テスト
データ
P(X)
訓練
データ
テスト
データ
Q(X)
w/ドメインシフト
≒
同じ真の分布から
サンプルされたデータ
異なる真の分布から
サンプルされたデータ
• DL含む多くの検証・一般的な学習理論は左を前提
• 一部の機械学習タスクはドメインバイアスがある(つまり右)
– 訓練時と異なるユーザを対象とする,ユーザの行動が変化するなど
– ドメインバイアスを無視すると,テストに対して精度が悪化
w/oドメインシフト
背景:ドメインシフトによる認識精度の劣化
5
Semantic Segmentation [Zhang+ 18]
Image Recognition [Ganin+ 15]
背景:ドメイン転移の問題設定
6
P = Q
P≒Q
教師なし, 多量
P≒Q
教師あり, 少量 ~
未知
ソース1つ
伝統的
機械学習
Unsupervised
DomainAdaptation
Few-Shot Domain
Adaptation
Domain Agnostic
Learning
ソース複数
Multi Domain
Learning
Multi Source
DomainAdaptation
(あんまりない?
Domain
Generalization
ターゲットデータ/分布への仮定
得られるソース分布
共通の仮定
• ソースはターゲットより何らかの意味でリッチな情報がある
• ソースの学習(経験リスクℝ 𝑠)をターゲットの学習にどう活かすか?
背景:ドメイン転移の理論 [Ben-David+ 10]
7
Theorem [Ben-David+ 10]
[Ben-David, 2010] “A theory of learning from different domains”
ソース損失 H⊿H Divergence Joint Error
= 理想的なhを
使うときの損失
ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier
※ S=ソース分布、T=ターゲット分布
※上の式はソースが1つの場合を仮定(多ソースへの拡張もある)
H⊿H Divergenceの解釈
8
H⊿H Divergenceが大きい状態 H⊿H Divergenceが小さい状態
• H⊿H Divergence = 分布間の距離を測る指標
• KL Divergenceなどよりサンプル効率が良い
背景:Domain Adversarial Neural Networks [Ganin+ 16]
9
• Idea:H⊿H Divergenceの上界を抑えるH-Distanceは2値分類器で近似できる
• Zがどちらのドメインから来たのかを分類する分類器で測って最小化
• 分類器が識別出来ないような特徴空間に飛ばす
DANNの効果[Ganin+ 16]
10
Outline
• ドメイン転移と不変表現学習
• 最近の研究動向(ICML2019が中心)
– 不変表現学習とJoint Errorのトレードオフ問題
– 教師なしドメイン適応におけるモデル選択問題
– メタ正則化による転移可能な表現の学習
– より難しい問題設定への取り組みについて
• まとめ
11
以降の内容
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Unsupervised Adversarial Induction, NIPS2018
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
12
以降の内容
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Unsupervised Adversarial Induction, NIPS2018
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
13
共通の問い:不変性を高めることは本当に良いことなのか?
不変性だけではだめな直感的な理由 [Saito+ 18]
14
不変性だけではだめな理論上の理由
15
Theorem [Ben-David+ 10]
ソース損失 H⊿H Divergence Joint Error
= 理想的なhを
使うときの損失
ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier
※ S=ソース分布、T=ターゲット分布
※上の式はソースが1つの場合を仮定(多ソースへの拡張もある)不変性を上げてもCが変化しないことを仮定
≒共変量シフトの問題設定(実際は?)
実験:Joint ErrorとH⊿H-divergence [Liu+ 19]
16
[Liu+ 19]
VisDA-17 Dataset
(左)Dataset(右)誤差
[Chen+ 19]
Office-31 Dataset
誤差
※ DANN [Ganin+16] Domain
Adversarial Neural Networks
※ MCD [Saito+ 18] Maximum
Classifier Discrepancy
観測:不変にする手法を使うとJoint Errorが大きくなっている
=>不変性を上げるとCが悪くなる(場合がある)
不変性が良くない簡単な例 [Zhao+ 19]
17[Zhao+, 19] “On Learning Invariant Representation for Domain Adaptation”
左はSとTは離れている
Joint Errorの低い分類器は作れる
左はSとTは完全に一致
Joint Errorの低い分類器は作れない
※ データは1次元、y軸はソースとターゲットを分けている
問い
1. 理論的に不変性とJoint Errorはどういう関係にあるのか?
– 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/
しないような状況はあるか?
2. Joint Errorを考慮するにはどうすればよいか?
– ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの
を最小化できるか?
18
On Learning Invariant Representations for Domain Adaptation, ICML2019
19
Han Zhao et al.
• Notationが違うが、Ben-Davidとの差は第3項
• ソースとターゲットに共通のラベリング関数を仮定しない
• Joint Errorは、ある特徴空間上での真のラベリング関数のミスマッチ
• ※ちなみにこの論文では対処法については議論してない
On Learning Invariant Representations for Domain Adaptation, ICML2019
20
Han Zhao et al.
Over-training hurt generalization!
理由:ラベル分布が異なる場合に学習しすぎると
真のラベリング関数がソースとターゲットでずれ
る(RTが途中から劣化!)
問い
1. 理論的に不変性とJoint Errorはどういう関係にあるのか?
– 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/
しないような状況はあるか?
– => 特徴空間上での真のラベリング関数がずれると悪化する
– => P(Y)が異なる場合には不変性とJoint Errorは両立できない
2. Joint Errorを考慮するにはどうすればよいか?
– ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの
を最小化できるか?
21
Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
22
Hong Liu et al.
手法の概念図
• 特徴空間上を動かす代わりに、ドメイン識
別器を使って新たに事例を作る
• 特徴空間は変化しないので劣化しない
• 事例は、(1) ドメイン識別器を騙す、(2) Yの
分類平面も騙すような事例
(決定境界の近くに移す)
アルゴリズム
Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
23
Hong Liu et al.
結果
Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment
24
Yifan Wu et al.
具体的な実装
(DANNの拡張版)
気持ち
• すべてが近づかなくて
も良い
• β-admissible distances
(定義3.3)
• SとTが一定より近ければ
Alignしたとみなす
具体的な実装
(Wasserstein版)
Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment
25
Yifan Wu et al.
Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019
26
Xinyang Chen et al.
前提:特異値のプロット 提案法:BSP
• DANNは特異値の最大値が大きい傾向
• (1) 特徴量が一部の軸に支配されている
(≒縮退している)
• (2) Discriminabilityが低い(詳細略)
(クラス間分散/クラス内分散)
• Top-Kの特異値が小さくなるように制約
Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019
27
Xinyang Chen et al.
まとめ:Joint Errorと不変性のトレードオフ
• 共通の問い:不変性を上げれば良いのか?
• 部分的な答え:
– 少なくともP(Y)が変化する場合にはNo
– (共変量シフトの仮定が成り立たない場合)
– かつ、これは結構実際的におこる(ターゲットのP(Y)は普通未知)
• 対策:ここではICML2019を3つ紹介
– Transferable Adversarial Training
– Batch Spectral Penalization
– Asymmetric Relaxation
28
次なる疑問:結局どれを使えばいいのか?
• 非常に答えにくい
• 理由:モデル選択方法が確立されていない=>比較困難!
– 実際に知りたいターゲットロスは使えない
– 論文によっても使ってる方法が違う!
• 素朴な方法1:ソースリスク
– 問題:上界を明らかに抑えてない
• 素朴な方法2:ターゲットリスク(少数で計測)
– 問題:教師なしドメイン適応の問題設定と反している
29
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation,
ICML2019
前提:Importance Weighted Cross Validation (IWCV)
• 密度非による重み付けを利用したモデル選択
30
重み付きソース損失
ターゲットのリスク
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
31
Kaicho You et al.
IWCVの問題:アンバイアスだが分散が大きい
Renyi Divergence
提案法:Deep Embedded Validation
(1) 特徴空間上で密度比を計測する (ドメイン識別器を使う)
(2) Control Variatesを使う(平均をベースラインに使う)
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
32
Kaicho You et al.
(1) 手法問わず使える (2) ターゲットとほぼ同等
(3) Control Variateは平均すると良い
モデル選択手法まとめ
33
モデル選択まとめ
• ドメイン転移の問題設定の多くではターゲットのラベル付きデータ
は得られない => モデル選択が難しい!
– フェアな比較がなされていない
– 再現性の担保も難しい
• アンバイアスで低分散な手法を提案
34
メタ正則化によるドメイン転移
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Unsupervised Adversarial Induction, NIPS2018
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
35
共通の問い: 不変性という基準を設計する必要あるのか?
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019
36
Yiying Li
NNで表されたAux. Lossを定義
条件1: 正のスカラーを出力
条件2:特徴抽出器(θ)に依存
例:Set Embedding
Inner Update
Aux. Lossを更新
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019
37
Yiying Li
Homogeneousな設定(普通の設定)での比較
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019
38
Yiying Li
Heterogeneousな設定(ラベル集合がSとTで異なる)での比較
まとめ(というか個人的な感想)
• 面白いけど黒魔術っぽさがすごい
– 普通こういう場合は正則化の候補をいくつか用意してどれを使うかを選
ぶとかになるところを、特徴抽出器(≒特徴表現)からの関数であれば何
でも良いということになっている
• よくわからない(一体何をしているのか。。。)
• 関連研究:
– Meta-Learning Update Rules for Unsupervised Representation Learning,
ICLR2019
39
より複雑な問題設定への応用
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
• Unsupervised Adversarial Induction, NIPS2018
40
ドメイン転移の種々の問題設定(再掲)
41
P = Q
P≒Q
教師なし, 多量
P≒Q
教師あり, 少量 ~
未知
ソース1つ
伝統的
機械学習
Unsupervised
DomainAdaptation
Few-Shot Domain
Adaptation
Domain Agnostic
Learning
ソース複数
Multi Domain
Learning
Multi Source
DomainAdaptation
(あんまりない?
Domain
Generalization
ターゲットデータ/分布への仮定
得られるソース分布
共通の仮定
• ソースはターゲットより何らかの意味でリッチな情報がある
• ソースの学習(経験リスクℝ 𝑠)をターゲットの学習にどう活かすか?
新しい軸
• (1) ターゲットの変化
– ”Open Set Domain Adaptation”
– “Partial Domain Adaptation”
– “Universal Domain Adaptation”
• (2) ドメインラベルなし
– “Unsupervised Adversarial Induction”, NIPS2018
– “Learning Robust Representations by Projecting Superficial Statistics
Out”, ICLR2019
42
(1) ターゲットの変化
43
(2) ラベルなし不変表現学習
• 普通の設定ではドメインにIDがついていることを仮定
• 実際は?
– 例えばWebのデータは1つのドメイン?
– そもそもドメインって何?
• ドメインIDがない状況でも、タスクに重要な情報をそうでない状況
と分離したい
• 方策1:特徴量を分離
”Unsupervised Adversarial Invaiance”, NIPS2018
• 方策2:不変性へのドメイン知識を利用
“Learning Robust Representations by Projecting Superficial
Statistics Out”, ICLR2019
44
Unsupervised Adversarial Invariance, NIPS2018
45
Ayush et al.
まとめ
• より複雑な問題設定での検証も最近は進められている
46
全体まとめ
• 一般的な仮定:不変性は転移に有効
• 最近の動向
– (1) Joint Errorを下げる方が大事では?
– (2) 不変性とか以前にモデル選択方法ちゃんとしないと比較できないの
では?
– (3) 正則化いちいち設計しないでメタ学習しよう?
– (4) ラベル集合が変化しないという仮定は現実的?
47
あまり触れられなかった話題
• 多分Joint Errorを考慮するのはAssymmetric Tri-Training
– 参照:“[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain
Adaptation (ICML2017)” and Neural Domain Adaptation”
• DANNの素朴な発展系の話
– Asymmetric Discriminative Domain Adaptation (ADDA)
– Conditional Domain Adversarial Networks (CDAN)
• その他の不変性基準
– KL-Divergence, MMD, CMD, Wasserstein
• 不変性の別ドメインへの応用:フェアネス等
• 理論的な詳細
• ドメイン汎化の最近の発展 48
SUMMARY
49
Related Works: Feature Adaptation
Mathematical Foundation
[Ganin, 2016] “Domain-Adversarial Training of Neural Networks”
Visualization
[Ben-David, 2010] “A theory of learning from different domains”
ドメイン間の距離ソース損失
理想的なhを使うと
きの損失の差
50
Maximum Mean Discrepancy (MMD) [Tzeng, 2014]
• Sの事例間類似度 + Tの事例間の類似度 - SとTの間の類似度
• カーネルを使って計算(ガウシアンカーネルがよく使われているイメージ)
(Cited)https://www.dropbox.com/s/c8vhgrtjcqmz9yy/Gret
ton.pdf?dl=1
(Cited) [Tzeng, 2014]
51
Domain-Adversarial Neural Networks [Ganin, 2014]
• Zがどちらのドメインから来たのかを分類する分類器で測って最小化
• 分類器が識別出来ないような特徴空間に飛ばす
52
MMD系とDANN系(+その派生)
• MMD系: 分布の差 Ps(Z) - Pt(Z)を計測
– DANN: マルチカーネルMMDを使う(MK-MMD)
– VFAE: MMD+グラフィカルモデルでzとsの独立性を表現
– CORAL: 2nd order momentのみを合わせる
– AdaBN: 平均と分散をドメインごとに計算して合わせるBN
– CMD: k-th order momentまで計算して合わせる
• DANN: 分布の比Ps(Z)/ Pt(Z)を計測
– KL-Divergence: KL(S|T) + KL (T|S),陽に1stモーメントを近づける
※どちらが良いかははっきりしてないと思う(例えば精度はMMD < DANN < CMD)
※GANみたいに比だと安定しないとかはあんまりない印
※Wasserstainみたいな輸送距離が使われているのは見たことないけどどうなるのか気になる 53
DANN系の派生その他
• [Zhao+ 18] “Adversarial multiple source domain adaptation”,
NIPS2018
• [Zhao+ 18] “Multiple source domain adaptation with adversarial
learning”, ICML2018
• [Tzeng+17] “Adversarial discriminative domain adaptation”,
ArXiv?
• [Pei+18] “Multi-adversarial domain adaptation”
• [Hoffman+18] “Cycada: Cycleconsistent adversarial domain
adaptation”, ICML2018?(記憶)
54

Contenu connexe

Tendances

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 

Tendances (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 

Similaire à [DL輪読会]ドメイン転移と不変表現に関するサーベイ

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Interpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecastingInterpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecastingMorpho, Inc.
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7Shinsaku Kono
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14matsuolab
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...Deep Learning JP
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
 

Similaire à [DL輪読会]ドメイン転移と不変表現に関するサーベイ (20)

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
170614 iclr reading-public
170614 iclr reading-public170614 iclr reading-public
170614 iclr reading-public
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Interpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecastingInterpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecasting
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial Attacks
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Dernier (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

[DL輪読会]ドメイン転移と不変表現に関するサーベイ

  • 1. DEEP LEARNING JP [DL Papers] ドメイン転移と不変表現に関するサーベイ (ICML2019が中心) Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/
  • 2. ドメイン転移と不変表現に関するサーベイ • On Learning Invariant Representations on Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Domain Agnostic Learning with Disentangled Representations, ICML2019 • Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 • Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 • Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 • Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 • Bridging Theory and Algorithm for Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 • MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 • Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 • Unsupervised Adversarial Induction, NIPS2018 • Universal Domain Adaptation, CVPR2019 • Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 2
  • 3. Outline • ドメイン転移と不変表現学習 • 最近の研究動向(ICML2019が中心) – 不変表現学習とJoint Errorのトレードオフ問題 – 教師なしドメイン適応におけるモデル選択問題 – メタ正則化による転移可能な表現の学習 – より難しい問題設定への取り組みについて • まとめ 3
  • 6. 背景:ドメイン転移の問題設定 6 P = Q P≒Q 教師なし, 多量 P≒Q 教師あり, 少量 ~ 未知 ソース1つ 伝統的 機械学習 Unsupervised DomainAdaptation Few-Shot Domain Adaptation Domain Agnostic Learning ソース複数 Multi Domain Learning Multi Source DomainAdaptation (あんまりない? Domain Generalization ターゲットデータ/分布への仮定 得られるソース分布 共通の仮定 • ソースはターゲットより何らかの意味でリッチな情報がある • ソースの学習(経験リスクℝ 𝑠)をターゲットの学習にどう活かすか?
  • 7. 背景:ドメイン転移の理論 [Ben-David+ 10] 7 Theorem [Ben-David+ 10] [Ben-David, 2010] “A theory of learning from different domains” ソース損失 H⊿H Divergence Joint Error = 理想的なhを 使うときの損失 ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier ※ S=ソース分布、T=ターゲット分布 ※上の式はソースが1つの場合を仮定(多ソースへの拡張もある)
  • 8. H⊿H Divergenceの解釈 8 H⊿H Divergenceが大きい状態 H⊿H Divergenceが小さい状態 • H⊿H Divergence = 分布間の距離を測る指標 • KL Divergenceなどよりサンプル効率が良い
  • 9. 背景:Domain Adversarial Neural Networks [Ganin+ 16] 9 • Idea:H⊿H Divergenceの上界を抑えるH-Distanceは2値分類器で近似できる • Zがどちらのドメインから来たのかを分類する分類器で測って最小化 • 分類器が識別出来ないような特徴空間に飛ばす
  • 11. Outline • ドメイン転移と不変表現学習 • 最近の研究動向(ICML2019が中心) – 不変表現学習とJoint Errorのトレードオフ問題 – 教師なしドメイン適応におけるモデル選択問題 – メタ正則化による転移可能な表現の学習 – より難しい問題設定への取り組みについて • まとめ 11
  • 12. 以降の内容 • On Learning Invariant Representations on Domain Adaptation, ICML2019 • Domain Agnostic Learning with Disentangled Representations, ICML2019 • Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 • Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 • Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 • Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 • Bridging Theory and Algorithm for Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 • MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 • Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 • Unsupervised Adversarial Induction, NIPS2018 • Universal Domain Adaptation, CVPR2019 • Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 12
  • 13. 以降の内容 • On Learning Invariant Representations on Domain Adaptation, ICML2019 • Domain Agnostic Learning with Disentangled Representations, ICML2019 • Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 • Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 • Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 • Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 • Bridging Theory and Algorithm for Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 • MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 • Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 • Unsupervised Adversarial Induction, NIPS2018 • Universal Domain Adaptation, CVPR2019 • Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 13 共通の問い:不変性を高めることは本当に良いことなのか?
  • 15. 不変性だけではだめな理論上の理由 15 Theorem [Ben-David+ 10] ソース損失 H⊿H Divergence Joint Error = 理想的なhを 使うときの損失 ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier ※ S=ソース分布、T=ターゲット分布 ※上の式はソースが1つの場合を仮定(多ソースへの拡張もある)不変性を上げてもCが変化しないことを仮定 ≒共変量シフトの問題設定(実際は?)
  • 16. 実験:Joint ErrorとH⊿H-divergence [Liu+ 19] 16 [Liu+ 19] VisDA-17 Dataset (左)Dataset(右)誤差 [Chen+ 19] Office-31 Dataset 誤差 ※ DANN [Ganin+16] Domain Adversarial Neural Networks ※ MCD [Saito+ 18] Maximum Classifier Discrepancy 観測:不変にする手法を使うとJoint Errorが大きくなっている =>不変性を上げるとCが悪くなる(場合がある)
  • 17. 不変性が良くない簡単な例 [Zhao+ 19] 17[Zhao+, 19] “On Learning Invariant Representation for Domain Adaptation” 左はSとTは離れている Joint Errorの低い分類器は作れる 左はSとTは完全に一致 Joint Errorの低い分類器は作れない ※ データは1次元、y軸はソースとターゲットを分けている
  • 18. 問い 1. 理論的に不変性とJoint Errorはどういう関係にあるのか? – 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/ しないような状況はあるか? 2. Joint Errorを考慮するにはどうすればよいか? – ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの を最小化できるか? 18
  • 19. On Learning Invariant Representations for Domain Adaptation, ICML2019 19 Han Zhao et al. • Notationが違うが、Ben-Davidとの差は第3項 • ソースとターゲットに共通のラベリング関数を仮定しない • Joint Errorは、ある特徴空間上での真のラベリング関数のミスマッチ • ※ちなみにこの論文では対処法については議論してない
  • 20. On Learning Invariant Representations for Domain Adaptation, ICML2019 20 Han Zhao et al. Over-training hurt generalization! 理由:ラベル分布が異なる場合に学習しすぎると 真のラベリング関数がソースとターゲットでずれ る(RTが途中から劣化!)
  • 21. 問い 1. 理論的に不変性とJoint Errorはどういう関係にあるのか? – 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/ しないような状況はあるか? – => 特徴空間上での真のラベリング関数がずれると悪化する – => P(Y)が異なる場合には不変性とJoint Errorは両立できない 2. Joint Errorを考慮するにはどうすればよいか? – ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの を最小化できるか? 21
  • 22. Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 22 Hong Liu et al. 手法の概念図 • 特徴空間上を動かす代わりに、ドメイン識 別器を使って新たに事例を作る • 特徴空間は変化しないので劣化しない • 事例は、(1) ドメイン識別器を騙す、(2) Yの 分類平面も騙すような事例 (決定境界の近くに移す) アルゴリズム
  • 23. Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 23 Hong Liu et al. 結果
  • 24. Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment 24 Yifan Wu et al. 具体的な実装 (DANNの拡張版) 気持ち • すべてが近づかなくて も良い • β-admissible distances (定義3.3) • SとTが一定より近ければ Alignしたとみなす 具体的な実装 (Wasserstein版)
  • 25. Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment 25 Yifan Wu et al.
  • 26. Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019 26 Xinyang Chen et al. 前提:特異値のプロット 提案法:BSP • DANNは特異値の最大値が大きい傾向 • (1) 特徴量が一部の軸に支配されている (≒縮退している) • (2) Discriminabilityが低い(詳細略) (クラス間分散/クラス内分散) • Top-Kの特異値が小さくなるように制約
  • 27. Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019 27 Xinyang Chen et al.
  • 28. まとめ:Joint Errorと不変性のトレードオフ • 共通の問い:不変性を上げれば良いのか? • 部分的な答え: – 少なくともP(Y)が変化する場合にはNo – (共変量シフトの仮定が成り立たない場合) – かつ、これは結構実際的におこる(ターゲットのP(Y)は普通未知) • 対策:ここではICML2019を3つ紹介 – Transferable Adversarial Training – Batch Spectral Penalization – Asymmetric Relaxation 28
  • 29. 次なる疑問:結局どれを使えばいいのか? • 非常に答えにくい • 理由:モデル選択方法が確立されていない=>比較困難! – 実際に知りたいターゲットロスは使えない – 論文によっても使ってる方法が違う! • 素朴な方法1:ソースリスク – 問題:上界を明らかに抑えてない • 素朴な方法2:ターゲットリスク(少数で計測) – 問題:教師なしドメイン適応の問題設定と反している 29 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
  • 30. 前提:Importance Weighted Cross Validation (IWCV) • 密度非による重み付けを利用したモデル選択 30 重み付きソース損失 ターゲットのリスク
  • 31. Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 31 Kaicho You et al. IWCVの問題:アンバイアスだが分散が大きい Renyi Divergence 提案法:Deep Embedded Validation (1) 特徴空間上で密度比を計測する (ドメイン識別器を使う) (2) Control Variatesを使う(平均をベースラインに使う)
  • 32. Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 32 Kaicho You et al. (1) 手法問わず使える (2) ターゲットとほぼ同等 (3) Control Variateは平均すると良い
  • 34. モデル選択まとめ • ドメイン転移の問題設定の多くではターゲットのラベル付きデータ は得られない => モデル選択が難しい! – フェアな比較がなされていない – 再現性の担保も難しい • アンバイアスで低分散な手法を提案 34
  • 35. メタ正則化によるドメイン転移 • On Learning Invariant Representations on Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Domain Agnostic Learning with Disentangled Representations, ICML2019 • Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 • Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 • Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 • Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 • Bridging Theory and Algorithm for Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 • MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 • Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 • Unsupervised Adversarial Induction, NIPS2018 • Universal Domain Adaptation, CVPR2019 • Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 35 共通の問い: 不変性という基準を設計する必要あるのか?
  • 36. Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 36 Yiying Li NNで表されたAux. Lossを定義 条件1: 正のスカラーを出力 条件2:特徴抽出器(θ)に依存 例:Set Embedding Inner Update Aux. Lossを更新
  • 37. Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 37 Yiying Li Homogeneousな設定(普通の設定)での比較
  • 38. Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 38 Yiying Li Heterogeneousな設定(ラベル集合がSとTで異なる)での比較
  • 40. より複雑な問題設定への応用 • On Learning Invariant Representations on Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Domain Agnostic Learning with Disentangled Representations, ICML2019 • Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 • Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 • Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 • Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 • Bridging Theory and Algorithm for Domain Adaptation, ICML2019 • Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 • Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 • MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 • Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 • Universal Domain Adaptation, CVPR2019 • Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 • Unsupervised Adversarial Induction, NIPS2018 40
  • 41. ドメイン転移の種々の問題設定(再掲) 41 P = Q P≒Q 教師なし, 多量 P≒Q 教師あり, 少量 ~ 未知 ソース1つ 伝統的 機械学習 Unsupervised DomainAdaptation Few-Shot Domain Adaptation Domain Agnostic Learning ソース複数 Multi Domain Learning Multi Source DomainAdaptation (あんまりない? Domain Generalization ターゲットデータ/分布への仮定 得られるソース分布 共通の仮定 • ソースはターゲットより何らかの意味でリッチな情報がある • ソースの学習(経験リスクℝ 𝑠)をターゲットの学習にどう活かすか?
  • 42. 新しい軸 • (1) ターゲットの変化 – ”Open Set Domain Adaptation” – “Partial Domain Adaptation” – “Universal Domain Adaptation” • (2) ドメインラベルなし – “Unsupervised Adversarial Induction”, NIPS2018 – “Learning Robust Representations by Projecting Superficial Statistics Out”, ICLR2019 42
  • 44. (2) ラベルなし不変表現学習 • 普通の設定ではドメインにIDがついていることを仮定 • 実際は? – 例えばWebのデータは1つのドメイン? – そもそもドメインって何? • ドメインIDがない状況でも、タスクに重要な情報をそうでない状況 と分離したい • 方策1:特徴量を分離 ”Unsupervised Adversarial Invaiance”, NIPS2018 • 方策2:不変性へのドメイン知識を利用 “Learning Robust Representations by Projecting Superficial Statistics Out”, ICLR2019 44
  • 45. Unsupervised Adversarial Invariance, NIPS2018 45 Ayush et al.
  • 47. 全体まとめ • 一般的な仮定:不変性は転移に有効 • 最近の動向 – (1) Joint Errorを下げる方が大事では? – (2) 不変性とか以前にモデル選択方法ちゃんとしないと比較できないの では? – (3) 正則化いちいち設計しないでメタ学習しよう? – (4) ラベル集合が変化しないという仮定は現実的? 47
  • 48. あまり触れられなかった話題 • 多分Joint Errorを考慮するのはAssymmetric Tri-Training – 参照:“[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017)” and Neural Domain Adaptation” • DANNの素朴な発展系の話 – Asymmetric Discriminative Domain Adaptation (ADDA) – Conditional Domain Adversarial Networks (CDAN) • その他の不変性基準 – KL-Divergence, MMD, CMD, Wasserstein • 不変性の別ドメインへの応用:フェアネス等 • 理論的な詳細 • ドメイン汎化の最近の発展 48
  • 50. Related Works: Feature Adaptation Mathematical Foundation [Ganin, 2016] “Domain-Adversarial Training of Neural Networks” Visualization [Ben-David, 2010] “A theory of learning from different domains” ドメイン間の距離ソース損失 理想的なhを使うと きの損失の差 50
  • 51. Maximum Mean Discrepancy (MMD) [Tzeng, 2014] • Sの事例間類似度 + Tの事例間の類似度 - SとTの間の類似度 • カーネルを使って計算(ガウシアンカーネルがよく使われているイメージ) (Cited)https://www.dropbox.com/s/c8vhgrtjcqmz9yy/Gret ton.pdf?dl=1 (Cited) [Tzeng, 2014] 51
  • 52. Domain-Adversarial Neural Networks [Ganin, 2014] • Zがどちらのドメインから来たのかを分類する分類器で測って最小化 • 分類器が識別出来ないような特徴空間に飛ばす 52
  • 53. MMD系とDANN系(+その派生) • MMD系: 分布の差 Ps(Z) - Pt(Z)を計測 – DANN: マルチカーネルMMDを使う(MK-MMD) – VFAE: MMD+グラフィカルモデルでzとsの独立性を表現 – CORAL: 2nd order momentのみを合わせる – AdaBN: 平均と分散をドメインごとに計算して合わせるBN – CMD: k-th order momentまで計算して合わせる • DANN: 分布の比Ps(Z)/ Pt(Z)を計測 – KL-Divergence: KL(S|T) + KL (T|S),陽に1stモーメントを近づける ※どちらが良いかははっきりしてないと思う(例えば精度はMMD < DANN < CMD) ※GANみたいに比だと安定しないとかはあんまりない印 ※Wasserstainみたいな輸送距離が使われているのは見たことないけどどうなるのか気になる 53
  • 54. DANN系の派生その他 • [Zhao+ 18] “Adversarial multiple source domain adaptation”, NIPS2018 • [Zhao+ 18] “Multiple source domain adaptation with adversarial learning”, ICML2018 • [Tzeng+17] “Adversarial discriminative domain adaptation”, ArXiv? • [Pei+18] “Multi-adversarial domain adaptation” • [Hoffman+18] “Cycada: Cycleconsistent adversarial domain adaptation”, ICML2018?(記憶) 54