文献紹介：Toward Multimodal Image-to-Image Translation

Toward Multimodal
Image-to-Image Translation
Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrel,
Alexei A. Efros, Oliver Wang, Eli Shechtman, NIPS2017
杉浦大輝（名工大玉木研）
2022/10/28

概要
nBicycleGANの提案
• ノイズを生成するエンコーダの導入
• ノイズを付加し，バリエーションのある画像を生成
• 入力画像に忠実な画像を複数生成可能

関連研究
n Generative modeling
• Variational autoencoders [Kingma & Welling, arXiv2014]
• 潜在変数𝓏をデータ𝓍に対応づける
• 𝓍に近い分布𝑝!(𝓍)を生成モデルから学習
• Generative adversarial networks [Goodfellow+, NeurIPS2014]
• 生成器：尤もらしい画像の生成
• 識別器：実画像と偽画像の識別
n Conditional image generation
• Conditional VAEs [Sohn+, NIPS2015]
• Autoregressive model [Oord+, PMLR2016]
• Conditional GAN [Mirza & Osindero, arXiv2014]
• ラベル情報を生成器と識別器に入力し，訓練
• 特定のラベルにマッチするサンプルを生成
• マルチモダリティの犠牲

アイデア
nConditional Variational
Autoencoder GAN (cVAE-GAN)
• 潜在変数zがBに対して意味を持つ
ようにする
• 生成器に望ましい出力に対するノ
イズを与える
• 𝐵 → 𝑧 → $
𝐵
nConditional Latent Regressor GAN
(cLR-GAN)
• 出力画像から潜在ベクトルの復元
• 𝑧 → $
𝐵 → ̂
𝑧

提案手法: BicycleGAN
nBicycleGAN
• cVAE-GANとcLR-GANのハイブリッドモデル
• 両者の損失を足し合わせた
• 損失関数

生成過程
ncVAE-GAN
ncLR-GAN
𝑅𝑒𝑎𝑙
𝐿𝑎𝑏𝑒𝑙
encoder
noise 𝑍!
𝑄 𝑍!|𝑅𝑒𝑎𝑙
𝐿𝑎𝑏𝑒𝑙 + 𝑍!
generator
生成画像
𝐹"#$%
Random
noise 𝑍"
𝐿𝑎𝑏𝑒𝑙 + 𝑍&
generator
生成画像
𝐹"'(

識別器の学習
生成画像
𝐹
discriminator
discriminator 敵対的損失
敵対的損失
𝑙𝑜𝑠𝑠𝐷)
+
𝑙𝑜𝑠𝑠𝐷(
識別器を学習
𝑅𝑒𝑎𝑙

生成器，エンコーダの学習
n生成器，エンコーダの学習
n生成器の学習
生成画像
𝐹
𝑅𝑒𝑎𝑙
𝐿!損失 + 生成器，エンコーダ
の学習
𝑙𝑜𝑠𝑠𝐷#$%&, 𝑙𝑜𝑠𝑠𝐷#'(
KLダイバージェン
ス
noise 𝑍!
𝑄 𝑍!|𝑅𝑒𝑎𝑙
生成画像
𝐹"'(
encoder noise 𝑍)
𝑄(𝑍)|𝐹#'()
Randaom
noise 𝑍"
𝐿!損失生成器を学習

ネットワークアーキテクチャ
n生成器
• U-Net [Ronneberger+, arXiv2015]
n識別器
• 異なるスケールで二つのPatchGAN識別器
[Isola+, CVPR2017]
nエンコーダ
• 𝐸!"#$"%: 残差ブロックを持つ分類器 [He+, CVPR2016]
• 𝐸&$$: 畳み込み層とダウンサンプリング層を持つCNN
[Ganokratanaa+, IEEEAccess2020]

実験設定
n比較手法
• Pix2pix+noise [Isola+, CVPR2017]
• cAE-GAN
• KL損失を除く
• ノイズ学習が不可
• cVAE-GAN
• cVAE-GAN++
• 𝐿'($(𝐺, 𝐷)の追加
• 識別器がサンプルを見る
• cLR-GAN
• BicycleGAN
nデータセット
• エッジ→写真 [Yu and Grauman,
CVPR2014]，[Zhu+, ECCV2016]
• Googleマップ→衛星
[Isola+, CVPR2017]
• ラベル→画像 [Cordts+, CVPR2016]
• 夜間→昼間画像
[Laffont+, SIGGRAPH2014]
nノイズの次元
• 𝑧 = 2, 8, 256
nエンコーダの比較
• 𝐸!"#$"%
• 𝐸&$$

定性的評価
n知覚テスト
• AMTによるテスト
• Googleマップ→衛星タスクで測定
• 実画像と生成画像をそれぞれ１秒間ランダムに表示

定量的評価
nDivercity
• 平均LPIPS距離 [Zhang+, CVPR2018]
• 特徴空間におけるランダムなサンプルの平均距離を計算

エンコーダ，ノイズ入力の比較
nノイズの入力の仕方
n結果
• 𝐿)損失を表す
add-to-input add-to-all

まとめ
nBicycleGANの提案
• cVAE-GANとcLR-GANの組み合わせ
• ノイズを生成するエンコーダの導入
• ノイズ生成の学習
• Resnetが出力画像をより良く符号化
n出力結果
• 入力に忠実かつ，バリエーションのある画像を生成

文献紹介：Toward Multimodal Image-to-Image Translation

Recommandé

Recommandé

Contenu connexe

Plus de Toru Tamaki

Plus de Toru Tamaki (20)

Dernier

Dernier (8)

文献紹介：Toward Multimodal Image-to-Image Translation