Contenu connexe Similaire à 【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations (14) Plus de Deep Learning JP (20) 【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations1. DEEP LEARNING JP
[DL Papers]
BlobGAN: Spatially Disentangled Scene Representations
Presenter: Yuki Kondo
(Toyota Motor Corporation, Research Frontier Center)
http://deeplearning.jp/
2022.10.21
1
Yuki Kondo @ TOYOTA, Frontier Research Center
4. 書誌情報
• 論文名
BlobGAN: Spatially Disentangled Scene Representations (ECCV2022)
Keywords: scenes, generative models, mid-level representations
• 著者
Dave Epstein1, Taesung Park2, Richard Zhang2, Eli Shechtman2, Alexei Efros1
1UC Berkeley, 2Adobe Research
• URL
論文※:https://arxiv.org/abs/2205.02837
プロジェクトページ:https://dave.ml/Blobgan/
コード:https://github.com/dave-epstein/Blobgan
Demo : https://colab.research.google.com/drive/1NnMe6pmsKxaDCWdFcFTDdjIUdZUKmfAL?usp=sharing
4
※出典が明記されていない図表は当論文より引用
5. 論文概要
[ タスク ]
• 画像生成・編集
• オブジェクトの概念をBlobで表現.
5
https://dave.ml/Blobgan/static/vids/move_beds/final/5.mp4 (最終閲覧:2022/10/12)
https://dave.ml/Blobgan/st
atic/vids/clone/final/3.mp4
(最終閲覧:2022/10/12)
https://dave.ml/Blobgan/sta
tic/vids/clone/final/1.mp4
(最終閲覧:2022/10/12)
Blob: 斑点,染み
- Clone -
- Move -
- Resize -
https://dave.ml/Blobgan/static/vids/shrink_beds/final/5.mp4 (最終閲覧:2022/10/12)
6. 論文概要
[ 問題提起 ]
• 解析と合成タスクのためのシーンモデリング
• ClassifierやDiscriminator:「台所」などのシーンクラスと「椅子」などの
オブジェクトクラスを同列に扱っている.
• Semantic segmentation, pix2pix など:各画素に対応する教師データが必要であり,
ボトムアップ的.
• 条件つき画像生成
• 教示された特定のクラスのための中間表現にとどまっている
• Disentanglement
• シーンとオブジェクトを分離した形でそれぞれを独立に編集する多くの研究は
教師データが必要.
6
[ 提案 ]
• 教師無しの中間レベル表現
(中間レベル:画像単位でもピクセル単位でもないその間の表現)
• オブジェクトの位置や大きさなどが表現された中間表現を操作する
高品質かつ直感的なインターフェース
9. Blobでのシーン表現
• BlobWorld [C. Carson+ VISUAL1999]
• シーン表現をガウス型Blobで表現
• 領域ベースの画像検索システムとして活用
9
BlobWorld [C. Carson+ VISUAL1999]
このBlobのアイデアに「深度順序の符号化」を加えた表現を生成モデルに適応
10. 条件付き画像生成
• StyleGAN [ T. Karras+ CVPR2019]
• 潜在空間𝒁をマッピングネットワークで
中間潜在空間𝑾に変換.
⇒ 表現のDisentanglementを実現
• 階層ごとにwをスタイル情報として加える.
10
StyleGAN [T. Karras+ CVPR2019]
StyleGAN2をベースモデルとし,Blobをスタイル表現wとして活用する
• StyleGAN2 [ T. Karras+ CVPR2020]
• 生成画像の品質向上のために
• スタイル情報の加え方
• Generator, Discriminator内の拡大・縮小機構
などを再考.
Generator
Discriminator
StyleGAN [T. Karras+ CVPR2020]
13. 提案手法概要
[ 提案手法 ]
• 中間シーンを空間的深度順序が考慮されたガウス型「Blob」の集合体として
モデリング
• 教師無しでBlob表現を獲得
• Blob集合をエンコード情報とし,画像をデコーディング
• デコーダのベースモデルはStyleGAN2 [ T.Karras+ CVPR2020]
13
14. • 以下のパラメータでBlobを表現
• 中心座標
• スケール
• アスペクト比
• 回転角
• 構造特徴量
• スタイル特徴量
Layout network FとBlob表現
14
として一つのBlobを表現
がFより出力
Blob集合
Blobを表現するパラメータ
k : Blobの数
(ハイパーパラメータ)
空間解像度は生成画像と同じ
16. 生成器GへのBlob表現の入力
• 16 x 16にダウンスケールした構造ベクトルで構成されるマップΦを
Gの初期層への入力とする
*解像度増加の関係を合わせるために,ベースモデルから畳み込み2層を削除
• スタイルベクトルで構成されるマップΨ𝑙×𝑙 (𝑙 ∈ {16,32, … , 256})を
それぞれの対応する畳み込み層に入力
16
Φ
Ψ16×16 Ψ256×256
…
19. オブジェクトの移動
• LSUN シーンデータセット [F. Yu+ arXiv2015]で検証
• 移動に伴うオクルージョン関係の変更が適用されている
19
https://dave.ml/Blobgan/static/vids/move_
beds/final/5.mp4 (最終閲覧:2022/10/12)
- Movie -
:オクルージョン消失領域 :オクルージョン発生領域
26. 結論・所感
[ 結論 ]
• シーンの空間的に分離された対象の効率的なBlob表現を提案
• Blobの位置,大きさ,形状等がDisentanglementに大きく寄与
• ナイーブな表現にもかかわらず,ロバストな表現を獲得
[ 所感 ]
• 教師無しで,Blob操作とオブジェクトの対応が,人間が直感的に想像する状態に
最適化されることに驚いた.
• シンプルなアイデアであるため,多くの発展が考えられる
• Blob生成のためのベクトルに学習済みのCLIP[A. Radford+ PMLR2021]で自然言語空間と対応づける.
• Neural Fields を適用させ,Blob表現を3次元化 (ObjectNeRF[B. Yang+ ICCV2021]と相性が良い?)
• Blob表現の改善の余地
• 背景にも意味的なセグメントがあるはず(壁と床など)で,これらの分離もできるとさらに良い
• 減衰する楕円が最適か?⇒モデルの複雑性とDisentanglementの関係
• Blobの数は固定せず,Bottom-upとTop-downを行き来することが人間の理解に近い?
• Bottom-upとTop-downの双方利用は[Ohta+ IJCPR1978]などでも有効であると言及されている.
26