【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

StyleCLIP: Text-Driven Manipulation
of StyleGAN Imagery 岡田領/Ryo Okada
1

StyleCLIP: Text-Driven Manipulation of StyleGAN
Imagery
● Or Patashnik, Zongze Wu, Eli Shechtman,
Daniel Cohen-Or, Dani Lischinski
● Hebrew University of Jerusalem, Tel-Aviv
University, Adobe Research
● 2021/3/31 Arxiv投稿
● CLIPの応用例．StyleGANの画像生成とCLIP
の埋め込み表現を組み合わせて、テキス
ト入力で画像を編集できる．
● コード：https://github.com/orpatashnik/StyleCLIP
書誌情報
2

● Webから収集した「画像+テキスト」4億組の訓練データ
● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述
文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習
● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能
4
CLIP(Contrastive Language-Image Pre-training)

● Mapping networkとSynthesis networkの２つ
で構成
● Mapping network（８層）は潜在変数zを潜在
空間Wにマッピングする
● Synthesis network（18層）は4 x 4 x 512の定
数が入力．各層へスタイル（潜在変数にア
フィン変換）をAdaINで入力，ノイズも入力．
● 正則化(style regularization)として異なる潜在
変数z1, z2から生成したw1, w2を混ぜスタイ
ルの相関を防ぐ（W+空間）
● W+空間とスタイル（S）空間を本論文の手
法でも用いる．
5
StyleGAN

● TediGAN
▸ テキストによる顔画像の生成と編集
▸ 画像とテキストを共通の埋め込み空間
にマッピング．style mixingによって画
像を生成・編集．
● Generating Images from Prompts using CLIP and
StyleGAN（ブログ記事）
▸ StyleGANとCLIPを組み合わせた
Text2Image（生成のみ）．本論文の手
法におけるLatent Optimizer（後述）に
近い．
7
関連研究

1. Latent Optimization
a. 潜在変数w∈W+を最適化する方法
b. 画像とテキストのペアごと最適化が必要で生
成に数分かかる．
2. Latent Mapper
a. mappering networkを訓練する方法
b. ある入力テキストに対して潜在空間の
manipulation stepを出力するように訓練
3. Global Directions
a. （入力画像によらない）グローバルな
manipulation stepを見つけて編集する方法
b. StyleGANの潜在空間としてスタイル空間Sを使
っている 8
Style CLIP３つのアプローチ

● StyleGAN生成画像と入力テキストのCLIP埋め込
み表現間の距離（Dclip）を最小化し，StyleGAN
上の潜在変数w∈W+を最適化
● 入力画像と乖離しすぎないように元の潜在変
数とのL2距離をとる
● identity lossによって人物の乖離を制御
● λL2とλIDの値はパラメータ
● 汎用的だが，元画像とテキストのペアごとに
毎回最適化が必要で数分かかるのがデメリッ
ト
9
手法１（Latent Optimization）

● Latent Optimizationによる結果（200~300
イテレーション）
● 人物を変えたい時はλIDを小さな値にす
る
10
手法１（Latent Optimization）

● 入力テキストtの画像操作内容を出力するようにマッピングネットワークを訓練する．
● Latent Optimizationに比べ，推論時は時間がかからない（75ms）
● 層ごとに生成画像の別の表現を学習するStyleGANの構成に倣い，mapping networkは３つに分ける
（coarse（粗い）, medium（中）, and fine（細かい））
11
手法２（Latent Mapper）

● 元の画像の特徴を保持しながら，テキスト
tによる画像編集させるため，mapperを以
下のlossで訓練．
● CLIP loss：CLIP潜在空間における生成画像
とテキストのコサイン距離を最小化
● L2 norm：元の画像の特徴を保持するため
● identity loss（Latent Optimizationのときと同
じ）
12

● Fig4 人物は保持しつつ髪型だけ変更（列ごと
に別のMapper）
● Fig5 一度に複数要素の変更
13

● 手法２であるテキストに対するmanipulation stepの類似度は高いことがわかった(Table2)
● このことから，入力テキストの編集内容をStyleGANのStyle空間における単一でグローバルな
方向にマッピングする方法を検討．（手法３）
● 入力テキストからCLIPの埋め込み空間におけるベクトルΔtを求め，これをStyleGANのスタイ
ル空間Sにおける編集方向Δsにマッピングしたい
● CLIP空間において，画像の多様体とテキストの多様体は同じ意味的変更に対して，共線的に
なる
● よって，テキスト入力による変更内容をΔtとし，それによるCLIP埋め込み空間での画像の変
更内容をΔiとしたとき，StyleGANのスタイル空間Sにおける各チャネルとΔiとの関連性を評価
し，編集の方向性Δsを決定していく 14
手法３（Global Directions）

● 自然言語をエンコードする際の工夫
▸ 80のテンプレート文を使って単語をエンコ
ードし，その平均を利用することで，ノイ
ズを軽減（Prompt Engineering）
● s ∈ Sにおいてチャネルcに対して摂動を与え，
CLIP空間でのその画像ΔicのΔiへの射影から関連
度の高い変更を探す．閾値βを設け，下回るRcは
無視し，その他の変更を適用．
● Fig 6 閾値βの値によってdistanglenmtの度合いを
制御可能．（他手法にはないユニーク点）
▸ βが大きいと髪だけ変化し，小さい時は目
元や顔の形まで変化．(αは摂動の度合い)
15

16

17

● 複雑で特殊な属性（特にアイデンティティに関わるもの）については、Mapperが優れた操作性
● よりシンプルで一般的な属性であれば、Global Directionsで十分であり、より分離した操作が可能
18
比較と評価

● 他の画像編集手法との比較（テキスト
入力に限らず）
● GANSpaceでは、操作は肌の色や照明
も変わってしまっている．
● InterFaceGANでは、人物が変わってし
まっている（Lipstickの場合）
● 提案手法はStyleSpaceと似ており，変
えたい要素だけ変え，他の要素は保持
できている
19
比較と評価

● 事前学習済みのStyle-GAN GとCLIPの埋め
込み表現を用いているので，その訓練デ
ータの範疇を超えるイメージ操作は難し
い
● あまりに思い切った操作は失敗すること
がある（右図で虎->ライオンはうまくい
くが，虎->狼はうまくいってない）
20
Limitations

● CLIPの埋め込み表現を利用した応用例．
● StyleGANの画像生成と潜在空間表現とうまく組み合わせて，テキスト入力の画像編集
の手法を提案．
● 既存手法に比べ，より複雑でより分離（distanglenmt）された編集が可能
21
まとめ

【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery