SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization

CV勉強会@関東
SPADE
2019/6/30
株式会社ディー・エヌ・エー
AI本部
李天琦

自己紹介
■ 名前：李天琦
■ Twitter：@Leetenki
■ Facebook：Leetenki
■ 経歴
〜2016年3月：深層強化学習の研究
2016年4月〜：DeNA入社
2016年6月〜：Japanリージョンゲーム事業本部(サーバ開発)
2016年10月〜：AIシステム部異動(コンピュータビジョン研究)

好きな事
■ 不動産投資
■ タワマン巡り

好きな事
■ 趣味で機械学習を使った不動産価値予測 -> 不動産投資

好きな事
■ 楽待新聞 (日本最大手不動産メディア) のインタビュー記事
■ https://www.rakumachi.jp/news/column/243118

好きな事
■ Googleに認められたらしい

好きな事
■ CVPRついでにGoogle本社(シリコンバレー)に行ってきた

好きな事
■ Chinese 爆買い at Google
■ Google Tシャツ1年分 & Google パーカ & Googleリュック etc...
■ 買いすぎてトランクに入り切らなかった

Previous Work
■ Chainer YOLOv2 (2016)
■ https://github.com/leetenki/YOLOv2

Previous Work
■ Chainer OpenPose (2017)
■ https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation

Recently Work
■ 高解像度全身アニメ生成
■ PS-GAN (ECCV2018 Workshop paper)
■ https://dena.com/intl/anime-generation/

Recently Work
■ アニメ中割生成
■ https://www.slideshare.net/hamadakoichi/anime-generation

*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
　
*
CVPR2019

CVPR2019
■ DeNAから9人参加 (7人聴講 + 2人発表)
■ 聴講組は各自担当分野を決めて分担して情報収集

CVPR2019
■ Multi-label image classificationのコンペで金メダル (矢野正基、加納龍一)

*
　
*
本題

*
　
*
Semantic Image Synthesis with
Spatially-Adaptive Normalization
( SPADE )

概要
■ CVPR 2019 Oral (https://youtu.be/9GR8V-VR4Qg?t=614)
■ UC Berkeley、NVIDIA、MITらの研究 (2019年3月)
■ pix2pixHD (CVPR 2018) の派生研究
■ Semantic layout + Styleを入力して、photorealな画像を生成する
■ Semantic image synthesisのタスク
引用1 [Taesung Park et al., 2019]

*
　
*
背景

背景
■ GANs (Generative Adversarial Networks) による画像生成
■ 何らかの潜在空間からsampleした値をupsampleしてリアルな画像を生成
■ GeneratorとDiscriminatorを戦わせて、真の分布に近づける
■ Discriminatorを騙せるようなリアル画像をGeneratorに生成させる
引用3 [Alec Radford et al., 2015]
引用2 [Tero Karras et al., 2018]

背景
■ GANsによる画像生成
Image synthesis via GANs

背景
■ Conditional image synthesis = 条件付き画像生成
Conditional Image Synthesis

背景
■ Conditional image synthesis = 条件付き画像生成
■ 何らか条件を入力して狙った画像を生成
■ 入力条件の種類によってタスク分類
引用4 [Takeru Miyato et al., 2018]
[Condition]

■ Label-to-imageのタスク
Label-to-image
背景

■ Label-to-imageのタスク
■ Class labelを入力して狙った画像を生成
Label-to-image
引用4 [Takeru Miyato et al., 2018]
背景
[Dog]
[Mushroom]

■ Text-to-imageのタスク
Text-to-image
Label-to-image
背景

■ Text-to-imageのタスク
■ 文章を入力して画像を生成
Text-to-image
Label-to-image
背景
People riding on
elephants that
are walking through
a river.
引用5 [Seunghoon Hong et al., 2018]

■ Image-to-imageのタスク
Text-to-imageImage-to-image
Label-to-image
背景

■ Image-to-imageのタスク
■ 画像を入力して画像を出力
Label-to-image
背景
引用6 [Phillip Isola et al., 2016]

Label-to-image
背景
Semantic image
synthesis

■ Senamtic mask(map)を入力して
photorealな画像を生成
Label-to-image
背景
Semantic image
synthesis
限定的だが
実応用上重要

*
　
*
既存研究

■ Pix2pix (CVPR2017)
■ Conditional GANを使ったシンプルなモデル
■ Senamtic maskそのものをConditionと見なして入力
既存研究

■ Pix2pixHD (CVPR2018)
■ https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371
■ Stacked構造のGenerator + Multi-scale Discriminator
■ 2048 x 1024の高解像度画像を安定して生成可能
既存研究
引用7 [Ting-Chun Wang et al, 2017]

*
　
*
既存研究の課題

引用8 [Qifeng Chen, et al., 2017]
[既存手法]
[提案手法]
■ ネットワーク途中でSemantic mapの情報ロス問題
■ 多様なSemantic labelに汎化できず、単調な画像が生成される
Detailまで生成
単調な生成

■ 標準的なDNNは、conv層で畳み込んだ後にnormalization層で正規化
■ 勾配平滑化、過学習防止等のメリットはあるが、
これをSemantic mapに適用すると、情報のロスにつながるケースが発生

■ 例：全pixelがgrassのSemantic mapを入力
■ Conv層で畳み込んだ後は一様な値(activation map)になる
(全pixelが1だったり2だったり)

■ この状態で直後にnormalizationを適用すると、全pixel = 平均値なので、
全ての値が0になる (情報が完全に失われる)

■ pix2pixHDでは、全pixelが一様なSemantic mapを入力すると、
ラベルの種類に関わらず必ずグレー画像が出力される
SPADE
[pix2pixHD]

*
　
*
SPADEの解説

■ 情報のロスを防ぐために、
■ 各normalization層の直後にsemantic mapの情報を埋め込む
SPADE

SPADE
■ SPADE = SPatially-Adaptive DEnormalization という独自のlayerを定義
■ Semantic label mapの情報を埋め込んだnorm層

SPADE
■ SPADE = SPatially-Adaptive DEnormalization という独自のlayerを定義
■ Semantic label mapの情報を埋め込んだnorm層
■ 正規化の後で、Semantic mapの情報を使って別空間へアフィン変換
-> 非正規化

■ Semantic mapを一度convでembedding spaceへ射影する
SPADE

■ 更に条件パラメータγとβを出力するようにそれぞれ分岐して畳み込む
■ γとβは空間的な次元を持つテンソル
SPADE

■ NNのメインストリーム側で、Parameter-freeのBatch normを計算しておく
SPADE

■ Batch Norm activationの結果に対して、要素ごとにγをかけてβを足す
■ γ = scaling
■ β = bias
SPADE

SPADE
■ γとβは学習によって得られるテンソルで、x、y、channelを持つ
= xとyのpixel要素ごとに異なるscalingとbiasのアフィン変換が行われる
■ γとβは正規化されないのでSemantic mapの情報を保存できる

■ 一様なSemantic mapを入力した場合の既存研究との効果比較：
■ pix2pixHDはラベルの種類に関わらず必ずグレー画像が出力される
■ SPADEは綺麗にDetailまで生成される
SPADE
[pix2pixHD] [SPADE]
ネットワーク最後ま
で情報伝搬
ネットワーク
途中で情報ロス

*
　
*
他Norm手法との比較

■ SPADE = いくつかメジャーなNormalization手法を包含した概念
SPADEと他Normの比較

■ SPADEのSemantic maskを別の画像に、γ と β を空間的不変、
Batch内サンプル数を1にする → AdaINになる
引用9 [Xun Huang et al, 2017]

■ SPADEのSemantic mask をラベル情報に置き換え、γ と β を空間的不変
→ Conditional BNになる
引用10 [Harm de Vries et al. 2017]

*
　
*
モデル設計

■ SPADEを使えばSemantic mapの情報をネットワーク途中に埋め込める
ので、入力層のSemantic mapが不要
■ pix2pixHDのGeneratorにあったEncoderをなくしてモデル軽量化
モデル設計

■ Generatorの入力部が空いたので、random vectorを入力
■ 同一のSemantic mapでも、sampleする入力値によって
マルチモーダルな生成が可能 -> Styleを制御
モデル設計

■ Semantic map側を編集する事で、Semantic Layoutを自由に変更可能
■ Semantic情報とStyle情報の分離制御を実現
モデル設計

■ random vectorの代わりに、image encoderを取り付けて学習も可能
■ reference画像のstyleを捉えて、狙ったstyleで生成できる
■ (論文ではVAEのreparameterization trickを使用)
モデル設計
Image
Encoder

*
　
*
実装詳細

■ Discriminatorはpix2pixHDと同じMulti-scale discriminator (PatchGAN準拠)
(Adversarial loss + Feature Matching loss + Perceptual loss)
■ least squared loss -> Hinge lossに変更
■ DiscriminatorにはSPADE層をいれない
実装詳細

■ GeneratorとDiscriminatorの両方にSpectral Normを適用
■ Generator LR = 0.0001、Discriminator LR = 0.0004
■ ADAM β1 = 0、β2 = 0.999
■ Dataset
⁃ COCO-Stuff： train 118,000枚、validation 5,000枚、182 classes
⁃ ADE20K：train 20,210枚、validation 2,000枚、150 classes
⁃ Cityscapes dataset：train 3,000枚、validation 500枚
⁃ Flickr Landscapes：train 40,000枚、validation 1,000枚 (DeepLabV2使用)
実装詳細
引用11 [Holger Caesar, et al., 2018]
引用12 [Bolei Zhou, et al., 2016]
引用13 [Marius Cordts, et al., 2017]

*
　
*
評価

■ Base Line：
① Pix2pixHD：SOTAなGANベースアプローチ
ベースライン

■ Base Line：
② CRN：段階的に高解像度Semantic mapを入力するFeedforwardアプローチ
ベースライン
引用14 [Qifeng Chen et al., 2017]

■ Base Line：
② CRN：段階的に高解像度Semantic mapを入力するFeedforwardアプローチ
③ SIMS：本物画像のDBからセグメント合成するアプローチ
ベースライン
引用15 [Xiaojuan Qi et al., 2018]

■ Semantic label-mapの復元度を計測
評価指標

■ 生成画像に対してDeepLabV2とDRN-D-105を使って、Semantic mapを予測
評価指標
GT Synthesized image
DeepLabV2

■ 正解label-mapとのmean IOU (mIoU)、pixel accuracy (accu) を比較
評価指標
DeepLabV2
mean IOU
pixel accuracy

■ 正解labe-mapとのmean IOU (mIoU)、pixel accuracy (accu) を比較
■ 更にFrechet Inception Distance (FID) で生成画像とGTの分布間距離も比較
評価指標
DeepLabV2
mean IOU
pixel accuracy
FID

■ Semantic mapの復元指標 (mIOU、accu) で既存手法を大きく上回る結果
定量評価

■ Semantic mapの復元指標 (mIOU、accu) で既存手法を大きく上回る結果
■ FIDでもほとんど最高値だが、CityscapesでのみSIMSに負ける
⁃ SIMSでは本物画像のパッチをつなぎ合わせて画像合成している
⁃ 必然的に生成分布は本物画像の分布と合致しやすい
⁃ SIMSは欲しいパッチがデータセット内に存在しない場合もあるので
mIOU、accuのスコアは低い
定量評価

■ 人間（Amazon Mechanical Turk）による定性的評価
■ Semantic maskと2種の生成画像を見せて、適切に対応している方を選ぶ
■ 全てのケースにおいて提案手法が最も高確率で選ばれた
定性評価

*
　
*
まとめ

① SPADE = SPatially-Adaptive DEnormalization という独自の正規化層を提案
　 -> Semantic mapの情報ロス問題を解決し、生成クォリティ向上
② Encoderネットワークが不要になり、モデル軽量化
③ Semantic mask と Styleを分離制御できるようになり多様な生成を実現
まとめ

■ http://34.209.64.66/
■ 絵描けない人でもイメージ通りの画像を生成できる
Webツールデモ

参考文献
■ [1] Taesung Park et al. Semantic Image Synthesis with Spatially-Adaptive Normalization, 2019
https://arxiv.org/abs/1903.07291
https://youtu.be/9GR8V-VR4Qg?t=614
■ [2] Tero Karras et al. Progressive Growing of GANs for Improved Quality, Stability, and Variation, 2018
https://youtu.be/XOxxPcy5Gr4
■ [3] Alec Radford et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015
■ [4] Takeru Miyato et al. cGANs with Projection Discriminator, 2018
■ [5] Seunghoon Hong et al. Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis, 2018
■ [6] Phillip Isola et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016
■ [7] Ting-Chun Wang et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017
https://youtu.be/3AIpPlzM_qs

参考文献
■ [8] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
■ [9] Xun Huang, et al. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization, 2017
■ [10] Harm de Vries, et al. Modulating early visual processing by language, 2017
■ [11] Holger Caesar, et al. COCO-Stuff: Thing and Stuff Classes in Context, 2018
■ [12] Bolei Zhou, et al. Semantic Understanding of Scenes through the ADE20K Dataset, 2016
■ [13] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016
■ [14] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
■ [15] Xiaojuan Qi, et al. Semi-parametric Image Synthesis, 2018

SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization

Similar to SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization (20)

Recently uploaded

Recently uploaded (14)

SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization