3. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
名前:李 天琦(り てんき)
Twitter: @Leetenki
Facebook: Leetenki
経歴:
~2016年3月 : 深層強化学習の研究
2016年4月~ : DeNA 入社
2016年6月~ : Japanリージョンゲーム事業本部 (サーバ開発)
2016年10月~: AIシステム部異動 (コンピュータビジョン研究)
4. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
学生時代
得意言語:WebGL
深層強化学習の研究
卒論:深層強化学習を用いた自動運転ロボット
5. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
好きなこと
不動産投資
タワマン巡り
6. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
好きなこと
売買価格
建築構造
築年数
専有面積
間取り
立地/駅距離
AI 収益最大化
将来価値予測
7. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Previous Work
Chainer YOLOv2 (2016)
https://github.com/leetenki/YOLOv2
8. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Previous Work
Chainer OpenPose (2017)
https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
9. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Recently Work
高解像度全身アニメ生成
PS-GAN (入り口で展示中)
http://dena.com/intl/anime-generation/
19. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
Image-to-Image Translation
異なる画像ドメイン間のマッピング問題
引用2 [Phillip Isola, et al, et al., 2016]
20. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
pix2pix (CVPR 2017)
Conditional GANを使ったアプローチ
Input domainの画像そのものをGeneratorのConditionと見なす
{ input domain, target domain/fake } のペアをDiscriminatorで識別
引用2 [Phillip Isola, et al, et al., 2016]
21. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
GANベースアプローチのメリット:
L1 lossだとボヤけやすいがAdversarial lossなら細部の生成が可能
Discriminatorがloss functionそのものを動的に学習可能
(最近のSuper resolution、Style transferのタスクでよく言及される)
引用3 [Christian Ledig, et al., 2016]
22. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
CRN (Cascaded Refinement Networks), ICCV 2017
その後のState-Of-The-Art
pix2pixでは高解像度の生成が安定せず失敗しやすい
GANではなく、単一のFeedforwardネットワークで安定した学習を実現
引用4 [Qifeng Chen, et al., 2017]
pix2pix CRN
23. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
CRN (Cascaded Refinement Networks), ICCV 2017
異なるスケールのsemantic label mapを段階的に入力
Perceptual lossを導入
( VGG等のPretrained済みのモデルに通した後のfeature間のL1 loss )
引用4 [Qifeng Chen, et al., 2017]
24. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
CRNの問題
高解像度は生成できたが拡大した時に細部の生成ができない
特に同じクラスのobjectが重なる部分でボヤける
引用4 [Qifeng Chen, et al., 2017]
26. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Contribution
① 高解像度での学習を安定させ、細部まで生成可能にする工夫
Coarse-to-fine Generator
Multi-scale Discriminators
Improved adversarial loss
Object boundary map
② Object levelでの多様な生成を可能にする工夫
Instance-level feature embedding
27. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pix baseline
GeneratorとDiscriminatorのminimax game
Generator = U-Net構造のEncoder-Decoder ( 最大で256×256 )
引用2 [Phillip Isola, et al, et al., 2016]
=
28. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pix baseline
Encoderの入出力解像度を上げる
そのままスケールを拡張してもうまくいかない
引用2 [Phillip Isola, et al, et al., 2016]
29. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
30. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
改良:Generatorを2つのネットワーク (G1とG2) に分離
G1 = Global generator network
G2 = Local enhancer network
G1は1024 × 512解像度の画像を生成
G2、G3…とLocal enhancerを追加するごとにWとHが2倍
引用1 [Ting-Chun Wang, et al., 2017]
31. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
3つのモジュールで構成される
Front-end(down sampling) + Residual blocks + Back-end(up sampling)
引用1 [Ting-Chun Wang, et al., 2017]
Front-end Back-end
32. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
最初にG1 (Global generator network ) のみを単独で訓練
G1の訓練が終了した後、両側にG2をくっ付ける
G2のFront-endの出力とG1のBack-endの出力でelement-wise sumをとる
(G1のpretrainで獲得したglobal informationを維持したままG2を訓練)
引用1 [Ting-Chun Wang, et al., 2017]
Front-end Back-end
33. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
G2の訓練時、最初はG1の重みを固定する
G2の訓練が安定した後、G1とG2を通してfine-tuneする
( StackGANと似た段階的な学習手法 )
引用1 [Ting-Chun Wang, et al., 2017]
34. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
35. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
高解像度画像をdiscriminateするのに、巨大なReceptive fieldが必要
1つのDiscriminatorで実現するにはdeepで大きなconvカーネルが必要
Overfittingしやすく膨大なメモリが必要 -> 非効率
引用1 [Ting-Chun Wang, et al., 2017]
36. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
これらの問題を回避するため、異なるスケールの3つのDiscriminatorに分離
D1, D2, D3 = 1倍スケール, ½倍スケール, ¼倍スケール
globalからdetailまでそれぞれ役割分担
更に解像度上げる時でも、最高解像度のDisciminatorを1個追加すれば良い
引用1 [Ting-Chun Wang, et al., 2017]
37. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
38. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
通常のDiscriminator lossに加えてFeature Matching lossというのを定義
Feature Matching loss (FM Loss) :
perceptual lossの考え方と同じ
real / fakeをDiscriminatorに入れた時の各層の出力を一致させる
generatorに自然な生成を強いる
引用1 [Ting-Chun Wang, et al., 2017]
39. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
最終的なadversarial loss:
λはFM lossの重み (実験では10)
perceptual lossと組み合わせると更に有効
引用1 [Ting-Chun Wang, et al., 2017]
40. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
41. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
既存研究(pix2pix、CRN等)ではSemantic label-mapのみを使う
Semantic label-mapでは同一カテゴリ内のobject間の差異はない
Instance label-mapのほうはobjectごとに一意のIDがある
引用5 [Zifeng Wu, et al., 2016]
Semantic label-map Instance label-map
42. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
Semantic label-mapのみを使った生成では境界部分がボヤける
Instance label-mapも併用したい (タスクが簡単になる)
しかしInstanceの上限が不定なので直接使うのは難しい
引用1 [Ting-Chun Wang, et al., 2017]
43. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
Instance label-mapで最も重要な情報は境界線
Object boundary mapを定義
1/0で構成された1チャンネルのバイナリーマップ
周囲4ピクセルのいずれかとインスタンスが異なる場合は1、同じなら0
GeneratorとDiscriminatorの両方の入力にこれを加える
引用1 [Ting-Chun Wang, et al., 2017]
44. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
Object boundary mapを併用すれば、境界が綺麗に生成される
引用1 [Ting-Chun Wang, et al., 2017]
45. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
46. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
semantic label-mapからの画像生成自体が、1対多のマッピング問題
1つのsemantic label-mapから多様な画像を生成できるのが理想
実用レベルではobject levelで狙った生成を行いたい
引用1 [Ting-Chun Wang, et al., 2017]
47. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
Feature encoder network:
Encoder-Decoder構造のネットワーク
元画像から低次元のfeature vectorを抽出
Encoderの後にInstance-wise average pooling層を追加
feature mapの、各instanceに対応する領域内でpoolingする
poolingした結果をそのinstanceに対応する全pixel領域に代入しなおす
引用1 [Ting-Chun Wang, et al., 2017]
48. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
Feature mapをSemantic label-mapと一緒にGeneratorに入力
各Instance領域内で同じfeatureを共有 = Instance-consistency を保証
引用1 [Ting-Chun Wang, et al., 2017]
63. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
参考文献
[1] Ting-Chun Wang, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017
https://arxiv.org/abs/1711.11585
https://www.youtube.com/watch?v=3AIpPlzM_qs
[2] Phillip Isola, et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016
https://arxiv.org/abs/1611.07004
[3] Christian Ledig, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2016
https://arxiv.org/abs/1609.04802
[4] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
https://arxiv.org/abs/1707.09405
http://www.philkr.net/cs395t/slides/Photographic_Image_Synthesis.pdf
[5] Zifeng Wu, et al. Bridging Category-level and Instance-level Semantic Image Segmentation, 2016
https://arxiv.org/abs/1605.06885v1
[6] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016
https://arxiv.org/abs/1604.01685
[7] Hengshuang Zhao, et al. Pyramid Scene Parsing Network, 2016
https://arxiv.org/abs/1612.01105