SlideShare une entreprise Scribd logo
1  sur  14
DEEP LEARNING JP
[DL Papers]
Seeing What a GAN Cannot Generate
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1
書誌情報
 著者
– David BauらMITの研究チーム
– GAN Dissectionを提案したチーム
 ICCV2019に採択
 コード:2週間前に公開
– https://github.com/davidbau/ganseeing
2
概要
 既存のGAN手法のmode collapseに注目。
 主に物体レベルのmode collapseを研究対象として、議論を行った
– どのような物体が作成されないかを統計的に検討
 単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversionを実施
し、生成器を最適化する
– レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上
– 既存のGAN手法が失敗するケースを分析
3
既往研究
 GANの課題:mode collapse/ mode drop
– ターゲット分布の一部分は生成されない
– 既存のGANの結果を評価する指標はモデル全体を対象とする
– 本研究は、物体レベルのmode collapseを評価
 Network inversion
– x = G(E(x))
– 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行う
ことで、画像を編集できる
– 構造の複雑な生成器に対しては困難
– 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案
 GANの可視化
– 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目
– 本研究は、 GANが学習できていない物体を対象とする 4
手法
 生成画像と実画像のセマンティックセグメンテーション結果を比較し、GAN
が生成できない物体を全体的に評価
⁃ セグメンテーション結果に対し、各クラスの画素数で比較
⁃ FSD(Fréchet Segementation Distance)でモデルの全体性能を評価(FIDと類似)
⁃ 𝐹𝑆𝐷 = 𝜇 𝑔 − 𝜇 𝑡
2
+ 𝑇𝑟 ∑ 𝑔 + ∑ 𝑡 + 2(∑ 𝑔∑ 𝑡)1/2
(1)
⁃ 𝜇 𝑡は学習サンプルの各クラスの平均画素数。∑ 𝑡は各クラスの画素数の共分散
⁃ 𝜇 𝑔は生成画像の各クラスの平均画素数。∑ 𝑔は各クラスの画素数の共分散
5
手法
 問題設定
– x‘ = G(z) = G(E(x))
• Network inversion によるGの最適化:Gはnon-convexのため、全体のinversionが難しい
• zの最適化:局所的最小値に落ちやすい
– 追跡可能なnetwork inversion
• x' = G(z)
= Gf(gn(·· · ((g1(z)))) (2)
= Gf(r*)
where Gfは生成器の深い層。gnは浅い層。
r
∗
= arg min
𝑟
𝑙(Gf 𝑟 , 𝑥)
– 完璧なr*を求めれば、漏れのない画像を生成できる
r
∗
≈r0= gn(·· · ((g1(z0))))
– ランダムなzより、ある程度正則化されたz0 が望ましい。実画像xをencodeすることで、正則化したz0を
求められる
z0 = E(x)
6
手法
 Layer-wise network inversion
– Encoder Eを学習できれば、 z0の推定ができる
– pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる
– Layer-wise inversionで、Eを最適化する
– x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する
• ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri))
• eiの最適化
• E* = e1(e2(·· · (en(ef(x))))
7
手法
 Layer-wise image optimization
– 目標は、 なるべく完璧なr
∗
を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*)
– 各 giにおいて、ある特徴量𝛿𝑖を加えることで、 ri を最適化
– 𝑟 ≡ 𝛿 𝑛 + 𝑔 𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 (3)
– r
∗
= arg min
𝑟
( 𝑙 x, Gf 𝑟 + λ 𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 2)
– 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする
8
実験1
 GANが生成した画像の全体評価
 実験対象
– WGAN-GP, Progressive GAN, StyleGAN
 データセット
– LSUN bedroom images
 評価内容
– GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する
– 合計336クラス、10,000枚以上の画像で評価
 セグメンテーション手法
– Unified Perceptual Parsing network
9
実験1
 実画像と比較し、GANは小さく、複雑な物体の生成が苦手
 性能として、StyleGAN > Progressive GAN > WGAN
10
Real images
実験2
 異なるデータセットにおいて、生成できない物体は類似する
 実験対象: Progressive GAN
 データセット:LSUN church/bedroom images
11
実験3
 提案手法有効性の検証
 baseline
– a): optimize z
– b): learn E directly
– c): b)+a)
 abalation study
– d): layer-wise network inversion only
– e): a)+optimize z
– f): a)+optimize r (r=Ef(x))
 提案手法は、中間レイヤの特徴量において、
99%以上相関
 Eの目的は、Gが生成できない物体
(dropped modes)を明確にする
 d),e)はGの下限を示す。f)はGの上限を示す
12
実験4
 Layer-wise inversion across domains
– 対象物体が同じで、学習データに含まれていない場合:形状は大体復元できるが、細部は困難
– シーンが異なる場合、基本的には難しい
13
まとめ
 GANの生成画像をセグメンテーションし、FSDで全体を評価した
 Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限(dropped
mode)を明確にした
 今後の課題
– なぜGANは、学習データでの出現頻度が高い物体を生成しないのか?
– 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか?
 所感
– 着眼点が面白い
– 方法は、割と地味
– 解釈性も入れるべき?
14

Contenu connexe

Plus de Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

[DL輪読会]Seeing What a GAN Cannot Generate

  • 1. DEEP LEARNING JP [DL Papers] Seeing What a GAN Cannot Generate Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
  • 2. 書誌情報  著者 – David BauらMITの研究チーム – GAN Dissectionを提案したチーム  ICCV2019に採択  コード:2週間前に公開 – https://github.com/davidbau/ganseeing 2
  • 3. 概要  既存のGAN手法のmode collapseに注目。  主に物体レベルのmode collapseを研究対象として、議論を行った – どのような物体が作成されないかを統計的に検討  単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversionを実施 し、生成器を最適化する – レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上 – 既存のGAN手法が失敗するケースを分析 3
  • 4. 既往研究  GANの課題:mode collapse/ mode drop – ターゲット分布の一部分は生成されない – 既存のGANの結果を評価する指標はモデル全体を対象とする – 本研究は、物体レベルのmode collapseを評価  Network inversion – x = G(E(x)) – 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行う ことで、画像を編集できる – 構造の複雑な生成器に対しては困難 – 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案  GANの可視化 – 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目 – 本研究は、 GANが学習できていない物体を対象とする 4
  • 5. 手法  生成画像と実画像のセマンティックセグメンテーション結果を比較し、GAN が生成できない物体を全体的に評価 ⁃ セグメンテーション結果に対し、各クラスの画素数で比較 ⁃ FSD(Fréchet Segementation Distance)でモデルの全体性能を評価(FIDと類似) ⁃ 𝐹𝑆𝐷 = 𝜇 𝑔 − 𝜇 𝑡 2 + 𝑇𝑟 ∑ 𝑔 + ∑ 𝑡 + 2(∑ 𝑔∑ 𝑡)1/2 (1) ⁃ 𝜇 𝑡は学習サンプルの各クラスの平均画素数。∑ 𝑡は各クラスの画素数の共分散 ⁃ 𝜇 𝑔は生成画像の各クラスの平均画素数。∑ 𝑔は各クラスの画素数の共分散 5
  • 6. 手法  問題設定 – x‘ = G(z) = G(E(x)) • Network inversion によるGの最適化:Gはnon-convexのため、全体のinversionが難しい • zの最適化:局所的最小値に落ちやすい – 追跡可能なnetwork inversion • x' = G(z) = Gf(gn(·· · ((g1(z)))) (2) = Gf(r*) where Gfは生成器の深い層。gnは浅い層。 r ∗ = arg min 𝑟 𝑙(Gf 𝑟 , 𝑥) – 完璧なr*を求めれば、漏れのない画像を生成できる r ∗ ≈r0= gn(·· · ((g1(z0)))) – ランダムなzより、ある程度正則化されたz0 が望ましい。実画像xをencodeすることで、正則化したz0を 求められる z0 = E(x) 6
  • 7. 手法  Layer-wise network inversion – Encoder Eを学習できれば、 z0の推定ができる – pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる – Layer-wise inversionで、Eを最適化する – x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する • ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri)) • eiの最適化 • E* = e1(e2(·· · (en(ef(x)))) 7
  • 8. 手法  Layer-wise image optimization – 目標は、 なるべく完璧なr ∗ を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*) – 各 giにおいて、ある特徴量𝛿𝑖を加えることで、 ri を最適化 – 𝑟 ≡ 𝛿 𝑛 + 𝑔 𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 (3) – r ∗ = arg min 𝑟 ( 𝑙 x, Gf 𝑟 + λ 𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 2) – 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする 8
  • 9. 実験1  GANが生成した画像の全体評価  実験対象 – WGAN-GP, Progressive GAN, StyleGAN  データセット – LSUN bedroom images  評価内容 – GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する – 合計336クラス、10,000枚以上の画像で評価  セグメンテーション手法 – Unified Perceptual Parsing network 9
  • 12. 実験3  提案手法有効性の検証  baseline – a): optimize z – b): learn E directly – c): b)+a)  abalation study – d): layer-wise network inversion only – e): a)+optimize z – f): a)+optimize r (r=Ef(x))  提案手法は、中間レイヤの特徴量において、 99%以上相関  Eの目的は、Gが生成できない物体 (dropped modes)を明確にする  d),e)はGの下限を示す。f)はGの上限を示す 12
  • 13. 実験4  Layer-wise inversion across domains – 対象物体が同じで、学習データに含まれていない場合:形状は大体復元できるが、細部は困難 – シーンが異なる場合、基本的には難しい 13
  • 14. まとめ  GANの生成画像をセグメンテーションし、FSDで全体を評価した  Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限(dropped mode)を明確にした  今後の課題 – なぜGANは、学習データでの出現頻度が高い物体を生成しないのか? – 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか?  所感 – 着眼点が面白い – 方法は、割と地味 – 解釈性も入れるべき? 14