14. Textual Inversion
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (Rinon Gal et al., 2022)
• ターゲット画像を学習対象のsoft prompt(s)に押し
込める i.e. Prompt-tuning T2I版
• 低コスト(一番学習対象パラメータ数少ない)
• DMを一切学習しないためOODデータには非対応
• 他の手法より、Text/Image alignmentが低い
• 拡張手法によりスコアが向上
• P+ (Andrey Voynov et al.) … UNetの各レイヤ
ごとに異なるsoft promptsを挿入
• Quick Embedding … まずCLIPのcos simに対
して最適化してから、Textual Inversion
Textual Inversion P+
15. DreamBooth
DreamBooth: Fine Tuning Text-to-Image Di
ff
usion Models for Subject-Driven Generation (Nataniel Ruiz et al., 2022)
• DMを単にFine-tuning
• テクニックとして、
• Unique identi
fi
er tokenの導入
• Over
fi
tting抑制のための、
Prior Preservation lossの提案
• OODデータにも対応し、Image alignmentスコアが高
い
• DM全体をFine-tuningするため、高コスト
• Mixed precisionや8-bit Adamなどの導入により、より低コスト
• Unique identi
fi
er tokenのembedとAttention層のKey/
Valueの重みのみ学習するCustom Di
ff
usionはより効
率的に学習が可能
16. LoRA
LoRA: Low-Rank Adaptation of Large Language Models (Edward J. Hu et al., 2021)
• NLPにて提案されたPEFT手法の一つLoRAをT2Iに適用*
• DMのAttention層の各重みにrank decomposition行列
を加え、その追加された部分のみ学習
• Personalizationモデルの重み が次のように表されることを仮定
, ( は事前学習モデルの重み)
• DreamBoothより低コストにも関わらず、Image
alignmentスコアは同等
• Under
fi
ttingの可能性が報告されている**
• Attention層以外にも適用可能であるため、拡張が簡単
W′

W′

= W0 + ΔW = W0 + BA W0
*LoRAの論文は古いが、T2Iに適用されたのは2023年2月。https://github.com/cloneofsimo/lora
**SVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)
17. SVDiff
SVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)
• DMのすべての重みに対してSVDを行い、特異値の差
分部分(以下、 )のみを学習
• 事前学習DMにおける任意の重み に対して、SVDにより:
• このとき、対応するPersonalizationモデルの重み を以下で
定義する:
• 複数の重みを混ぜ合わせるStyle Mixingや、複数の
ターゲットに対するMulti-subjectにも対応
• LoRAより少ない追加パラメータにも関わらず、
DreamBooth(DB)やLoRAに匹敵
• Image AlignmentがDBやLoRAよりやや低い
• mkshing/svdi
ff
-pytorchにて試すことが可能
δ
W
W = UΣV⊤
, Σ = diag(σ)
W′

W′

= UΣ′

V⊤
, Σ′

:= diag(ReLU(σ + δ))
W = U
Σ
V⊤
× ×
0
0
σ1
σ2
σr
δ1
δ2
δr
🔥
18. DiffFit
Di
ff
Fit: Unlocking Transferability of Large Di
ff
usion Models via Simple Parameter-E
ffi
cient Fine-Tuning (Enze Xie et al., 2023)
• モデルのバイアス項のみを学習するBitFitのDMへ
の拡張手法
• バイアス項に加え、LNとscale factor項を学習対
象とする
• 論文ではDMがDiTに適用しているが、拡張可能
• LoRAより少ない追加パラメータ
• BitFitでDBに匹敵する性能が出たとの報告あり*
• まだ自分の実験では良い精度が確認できず
• mkshing/Di
ff
Fit-pytorchにて試すことが可能
*https://twitter.com/okarisman/status/1647291808261480450
19. 比較(学習パラメータ数とtext/image alignment)
# of trainable params
Texual Inversion 768
DreamBooth 859.52 M
Custom Di
ff
usion 1.17 M
LoRA (rank=16) 3.19 M
LoRA (rank=4) 0.80 M
SVDi
f
0.28 M
BitFit 0.34 M
Di
ff
Fit 0.58 M
図1はSVDi
ff
: Compact Parameter Space for Di
ff
usion Fine-Tuning (Ligong Han et al., 2023)より引用
表1: 手法と学習パラメータ数
図1: 各手法のtext/image alignment score