【機械学習勉強会】画像の翻訳　”Image-to-Image translation”

DL勉強会用資料
GANを用いた画像の翻訳
pix2pix, cycle GAN
2017.05.23

Generative Adversarial Networks (GAN) [Goodfellow et al., 2014]
keyword: Adversarial （敵対的な）
Generator ：生成器
ランダムノイズから画像を生成（本物っぽく画像を作りたい！）
２つのニューラルネットワークを戦わせて学習する Generator vs Discriminator
ランダムノイズ
｛0.02, 0.06, 0.87, 0.21, ...｝・・・
・・・
・・・
G

Discriminator ：判別器
入力画像が本物かどうかを判別（偽物を見抜きたい！）
入力画像が本物かどうか
[0, 1]・・・
・・・
・・・
D
keyword: Adversarial （敵対的な）
２つのニューラルネットワークを戦わせて学習する Generator vs Discriminator

本物画像が本物である確率生成画像が本物である確率
ランダムノイズz
入力画像が本物？偽物？
D(x), D(G(z))
データセットの
本物画像 x
生成画像 G(z)

Deep Convolutional GAN (DCGAN) の生成結果

Image-to-Image Translation
with Conditional Adversarial Networks
pix2pix

Introduction
 言語の翻訳と同様に画像の翻訳を行う
 「画像を入力にして画像を出力にする」タスクは世の中に無数に存在する
 （色塗り、セマンティックセグメンテーション、エッジ化など）
 一対一に対応した写像とは限らないため非常に難しい
 many-to-one
 mapping photographs to edges, segments, or semantic labels
 one-to-many
 mapping labels or sparse user inputs to realistic images
 画像の生成モデルとして優れた成果を挙げているGANを用いた画像の翻訳に挑戦
 様々な画像変換タスクで使える共通のフレームワークを構築する
 Condition GAN を用いたアーキテクチャを設計
 GeneratorにはU-Net, DiscriminatorにはPatch GANを用いる

基本原理
Conditional GAN （cGAN）
 入力にラベルの情報を与えることで、
ラベルに対応するカテゴリ内での出力を行える
 ランダムノイズだけでなく画像のペアを入力とする
 Generator
 「入力画像」を翻訳した画像を生成する
 Discriminator
 「入力画像」と「真の画像」の2つの画像を入力とする
 そのペアが “Real pair” か “Fake pair” か判定する

損失関数
 GANの損失関数
 cGANの損失関数
 L1ノルムをペナルティとする

Generator
 Image to Image の変換ではエンコーダ - デコーダが一般的に用いられる
 通常のエンコーダ - デコーダでは“どのピクセルの情報か”ということは失われてしまう
 画像の翻訳ではInputとOutputの構造はおおまかに一致するはず
 例えば画像色彩化（色塗り）の場合、入力および出力のエッジは変わらない

Generator
 Image to Image の変換ではエンコーダ - デコーダが一般的に用いられる
 通常のエンコーダ - デコーダでは“どのピクセルの情報か”ということは失われてしまう
 画像の翻訳ではInputとOutputの構造はおおまかに一致するはず
 例えば画像色彩化（色塗り）の場合、入力および出力のエッジは変わらない
 U-Net を利用する
 デコーダ n-i層はi層のエンコーダの出力も同時に受け取る（ Skip connections ）
 入力の低次元の情報を共有したネットワーク

Discriminator
 L1ノルムの損失は画像がぼけてしまう
 高周波の鮮明度は表現できていない
 画像をパッチに分解してパッチ毎を識別する -> PatchGAN
 局所的に Real pair か Fake pair か判定
 高周波情報をモデル化可能
 一方で従来は表現できていた低周波情報が表現できなくなる
 低周波情報のキャプチャはL1ノルムペナルティによって表現する
PatchGAN
 パッチ径よりも遠いピクセルの独立を仮定 → 画像をマルコフ確立場としてモデル化
 したがってPatchGANはテクスチャ，スタイルの損失として理解できる？？

Discriminator
https://affinelayer.com/pix2pix/index.html

Experiments
 Semantic labeles ⇔ 写真（Cityscapes dataset）
 Arcitechural labels ⇔ 写真（Center for Machine Perception Facades dataset）
 地図 ⇔ 航空写真（Google Maps）
 白黒写真 ⇔ カラー写真（ImageNet）
 エッジ情報 ⇔ 写真（靴，カバン）
 スケッチ ⇔ 写真
 昼 ⇔ 夜

Results
 論文参照
https://phillipi.github.io/pix2pix/

Unpaired Image-to-Image Translation
using Cycle-Consistent Adversarial Networks
参考資料参照
cycle GAN

【機械学習勉強会】画像の翻訳　”Image-to-Image translation”

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 【機械学習勉強会】画像の翻訳　”Image-to-Image translation”

Similaire à 【機械学習勉強会】画像の翻訳　”Image-to-Image translation” (8)