[DL輪読会]Seeing What a GAN Cannot Generate

DEEP LEARNING JP
[DL Papers]
Seeing What a GAN Cannot Generate
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1

書誌情報
 著者
– David BauらMITの研究チーム
– GAN Dissectionを提案したチーム
 ICCV2019に採択
 コード：2週間前に公開
– https://github.com/davidbau/ganseeing
2

概要
 既存のGAN手法のmode collapseに注目。
 主に物体レベルのmode collapseを研究対象として、議論を行った
– どのような物体が作成されないかを統計的に検討
 単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversionを実施
し、生成器を最適化する
– レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上
– 既存のGAN手法が失敗するケースを分析
3

既往研究
 GANの課題：mode collapse/ mode drop
– ターゲット分布の一部分は生成されない
– 既存のGANの結果を評価する指標はモデル全体を対象とする
– 本研究は、物体レベルのmode collapseを評価
 Network inversion
– x = G(E(x))
– 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行う
ことで、画像を編集できる
– 構造の複雑な生成器に対しては困難
– 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案
 GANの可視化
– 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目
– 本研究は、 GANが学習できていない物体を対象とする 4

手法
 生成画像と実画像のセマンティックセグメンテーション結果を比較し、GAN
が生成できない物体を全体的に評価
⁃ セグメンテーション結果に対し、各クラスの画素数で比較
⁃ FSD（Fréchet Segementation Distance）でモデルの全体性能を評価(FIDと類似）
⁃ 𝐹𝑆𝐷 = 𝜇 𝑔 − 𝜇 𝑡
2
+ 𝑇𝑟 ∑ 𝑔 + ∑ 𝑡 + 2(∑ 𝑔∑ 𝑡)1/2
(1)
⁃ 𝜇 𝑡は学習サンプルの各クラスの平均画素数。∑ 𝑡は各クラスの画素数の共分散
⁃ 𝜇 𝑔は生成画像の各クラスの平均画素数。∑ 𝑔は各クラスの画素数の共分散
5

手法
 問題設定
– x‘ = G(z) = G(E(x))
• Network inversion によるGの最適化：Gはnon-convexのため、全体のinversionが難しい
• zの最適化：局所的最小値に落ちやすい
– 追跡可能なnetwork inversion
• x' = G(z)
= Gf(gn(·· · ((g1(z)))) (2)
= Gf(r*)
where Gfは生成器の深い層。gnは浅い層。
r
∗
= arg min
𝑟
𝑙(Gf 𝑟 , 𝑥)
– 完璧なr*を求めれば、漏れのない画像を生成できる
r
∗
≈r0= gn(·· · ((g1(z0))))
– ランダムなzより、ある程度正則化されたz0 が望ましい。実画像ｘをencodeすることで、正則化したz0を
求められる
z0 = E(x)
6

手法
 Layer-wise network inversion
– Encoder Eを学習できれば、 z0の推定ができる
– pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる
– Layer-wise inversionで、Eを最適化する
– x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する
• ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri))
• eiの最適化
• E* = e1(e2(·· · (en(ef(x))))
7

手法
 Layer-wise image optimization
– 目標は、なるべく完璧なr
∗
を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*)
– 各 giにおいて、ある特徴量𝛿𝑖を加えることで、 ri を最適化
– 𝑟 ≡ 𝛿 𝑛 + 𝑔 𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 (3)
– r
∗
= arg min
𝑟
( 𝑙 x, Gf 𝑟 + λ 𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 2)
– 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする
8

実験1
 GANが生成した画像の全体評価
 実験対象
– WGAN-GP, Progressive GAN, StyleGAN
 データセット
– LSUN bedroom images
 評価内容
– GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する
– 合計336クラス、10,000枚以上の画像で評価
 セグメンテーション手法
– Unified Perceptual Parsing network
9

実験1
 実画像と比較し、GANは小さく、複雑な物体の生成が苦手
 性能として、StyleGAN > Progressive GAN > WGAN
10
Real images

実験2
 異なるデータセットにおいて、生成できない物体は類似する
 実験対象： Progressive GAN
 データセット：LSUN church/bedroom images
11

実験3
 提案手法有効性の検証
 baseline
– a): optimize z
– b): learn E directly
– c): b)+a)
 abalation study
– d): layer-wise network inversion only
– e): a)+optimize z
– f): a)+optimize r (r=Ef(x))
 提案手法は、中間レイヤの特徴量において、
99％以上相関
 Eの目的は、Gが生成できない物体
（dropped modes）を明確にする
 d),e)はGの下限を示す。f)はGの上限を示す
12

実験4
 Layer-wise inversion across domains
– 対象物体が同じで、学習データに含まれていない場合：形状は大体復元できるが、細部は困難
– シーンが異なる場合、基本的には難しい
13

まとめ
 GANの生成画像をセグメンテーションし、FSDで全体を評価した
 Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限（dropped
mode）を明確にした
 今後の課題
– なぜGANは、学習データでの出現頻度が高い物体を生成しないのか？
– 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか？
 所感
– 着眼点が面白い
– 方法は、割と地味
– 解釈性も入れるべき？
14

[DL輪読会]Seeing What a GAN Cannot Generate

Recommandé

Recommandé

Contenu connexe

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

[DL輪読会]Seeing What a GAN Cannot Generate