Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
Self-supervised Learning of Adversarial Example:
Towards Good Generalizations for Deepfake Detection
Liang Chen1 Yong Zhang2 Yibing Song2 Lingqiao Liu1 Jue Wang2
1 The University of Adelaide 2 Tencent AI Lab

2
論文概要
目的
• DeepFakeの検出器をより一般化するための学習手法を提案
手法
• モデルの学習にフェイクの構成を推定するアプローチを組み込む
ことで、汎化性能の向上を狙う
結果
• 学習とは異なるデータセットでテストを行い、従来手法より精度
向上したことから、提案手法が汎化性能向上に貢献している
発表学会
• CVPR2022
論文URL
https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-
Supervised_Learning_of_Adversarial_Example_Towards_Good_Generaliza
tions_for_Deepfake_CVPR_2022_paper.pdf
コード
https://github.com/liangchen527/SLADD.

3
背景
• DeepFakeとは
深層学習モデルを用いて合成されたFake画像のこと
実際には行っていない、言ってない発言を捏造されるな
ど、社会上の問題となっている
例)2つの入力からFake画像が生成するDeepFake

4
先行研究
• DeepFakeを検出するDeepFakeDetectionの研究が盛ん
• 課題
従来研究の一般的な実験では学習・テストが同じデータセット
→論文内では精度が高いが、汎化性能の点に課題がある
実際に利用する場合、多様な画像のフェイクに敏感である必要がある
→本論文では、人物画像のFakeに着目した汎化性能のある検出器の作
成を行う
Detection
Model
Reak?Fake？分類モデル
Fake!

5
提案手法の概要
adversarial data augmentationを用いたDeepFake検出器を提案
• 偽造の種類、構成の補助タスクも同時に学習する自己教師あり学習
• Fakeの領域やタイプも同時に学習することでよりFake部分への感度が高い
モデルを作成
DeepFake(4種)が適用された4パターンの学
習データセットに、学習時とは異なるデー
タセットで評価した実験の結果、提案手法
はベースラインから大きく精度が向上した

6
提案手法
生成器
・入力：2枚の画像
・出力：合成する領域(10パターン)、合成手法(3+1)、合成の強度
領域
・右目、左目、鼻、口と6パターンの組み合わせの全10パターン
→ほとんどのDeepFakeが、上記の顔の特徴に着目しているから
合成方法
・alpha blending・Poission blending・mixup・do nothing
合成の強度
・ Mixup選択時の0～1の連続値
生成器

7
画像合成の例
• 各顔パーツとその組み合わせ、合成手法を適
用した例
𝐼：3チャネルの画像
𝑝：元画像(pristine)
𝑓：reference
𝐴𝑔：blending ratio
𝑀𝑑：最終的なマスク画像
I𝑎：合成された画像
画像合成の計算

8
提案手法
検出器
𝐿𝑅:推定マスク領域の損失関数
検出器
𝑀𝑔𝑡：マスク画像のGT
𝑀𝑒：推論されたマスク画像
𝐻：画像の縦サイズ
𝑊：画像の横サイズ

9
提案手法
検出器
LT ：blending type推定のロス
4つに加え、すでにFakeが含まれている学習データセットの場合や、
想定外の合成手法に対応するためのクラスを一つ加えた5クラスと
している
損失関数はAMSoftmaxLoss[49]を使用
検出器
[49] Feng Wang, Jian Cheng, Weiyang Liu, and Haijun Liu. Additive margin
softmax for face verification. IEEE SPL, 25(7):926–930, 2018.

10
提案手法
検出器
𝐴𝑔t：blending ratioのGT
𝐴𝑒 ：推定されたratio
検出器
LA ：blending ratio 推定のロス
Mixupの場合はΓ = 1、それ以外はゼロとされており、Mixupが選択さ
れていた場合のみ有効となる
LMain : Fake判定のメインタスクのロス.損失関数はCrossentropy使用

11
提案手法
MinMax法で学習
α, μ, γ：ハイパーパラメータ
𝜂：学習率
Ln ：n番目のミニバッチ
𝑁：バッチサイズ
Θ：生成モデルのパラメータ
𝑤：識別モデルのパラメータ
生成器は識別器を騙す(損失最大化)するようパラメータを学習し、
識別器は損失を最小化するような敵対的学習を行う
式(4)のハイパーパラメータ：α = 0.1,μ = 0.05,γ = 0.1としている

12
実験設定
• 学習データセット
・Faceforencis++ (FF++) データセット [41]
1000のReal動画を740を学習、140を検証、140をテストに使用。
すべての動画はDeepfakes (DF) [11], Face2Face (F2F) [45], FaceSwap (FS) [15],
NeuralTextures (NT) [44]の4つのFake手法によってFakeが作成される。
最終的な出力は，RAW，HQ(デフォルト)，LQの異なる圧縮レベルでそれぞ
れ生成される
• テストデータセット
・CelebDF [28]：408の実ビデオと795の合成ビデオ
・Depfake Detection Challenge (DFDC) [12] ：1000以上のReal動画と4000
以上のFake動画
Deepfake、GANbased、非learnedメソッドによって操作されたもの。
・Deeperforensics-1.0(DF1.0)[20]：DF-VAE手法による11000以上のFake動画
• 前処理
顔抽出と位置合わせにはDLIB[42]を用い，学習データセットとテストデー
タセットのすべてのサンプルについて，位置合わせされた顔を256×256に
リサイズしている．

13
実験設定
• モデル
・生成器、検出器はXception[8]
パラメータはImageNetで事前に学習されたXceptionによって初期化
最適化手法：Adam(β1 = 0.9, β2 = 0.999)
バッチサイズ：32
学習率：検出器2×10-4、生成器5×10-5
[8] Franc，ois Chollet. Xception: Deep learning with depthwise separable convolutions. In CVPR, 2017
[11] DeepFakes. www . github . com / deepfakes /faceswap Accessed 2021-04-24.
[12] Deepfake detection challenge. https://www.kaggle.com / c / deepfake - detection - challenge Accessed 2021-04-24.
[15] FaceSwap. www.github.com/MarekKowalski/FaceSwap Accessed 2021-04-24.
[20] Liming Jiang, Ren Li, Wayne Wu, Chen Qian, and Chen Change Loy. Deeperforensics-1.0: A large-scale dataset for real-world face forgery detection. In CVPR, 2020.
[28] Yuezun Li, Xin Yang, Pu Sun, Honggang Qi, and Siwei Lyu. Celeb-df: A new dataset for deepfake forensics. In CVPR, 2020.
[41] Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, and Matthias Niesner. Faceforensics++: Learning to detect manipulated facial
images. In ICCV, 2019
[42] Christos Sagonas, Epameinondas Antonakos, Georgios Tzimiropoulos, Stefanos Zafeiriou, and Maja Pantic. 300 faces in-the-wild challenge: database and results. IVC,
47:3–18, 2016.
[44] Justus Thies, Michael Zollh¨ofer, and Matthias Niesner. Deferred neural rendering: Image synthesis using neural textures. TOG, 38(4):1–12, 2019.

14
DeepFakeの例
Face2Face[45]を使用したDeepFakeの例
[45] Justus Thies, Michael Zollhofer, Marc Stamminger, Christian Theobalt, and Matthias
Niesner. Face2face: Real-time face capture and reenactment of rgb videos. In CVPR, 2016.

15
実験結果
• FF++データセットに各DeepFake手法を適用し、
異なるテストデータセットで従来手法と比較
• 提案した敵対的学習と自己教師あり学習が有効
• 学習に使用したFF++に有効な特徴抽出も、他データセットで精度が低下してい
ることから一般化できていない可能性を示唆

16
実験結果
• 合成が画像の品質と精度の比較
• 品質が低い(粗い)場合でも、提案モデルは
他モデルより高精度

17
実験結果
• Fake領域とFake検出のマルチタスクモデルと比較
• 他手法より高精度
• 他手法はアノテーションが必要であるが、提案手法は
生成器による自己教師あり学習を行うため不要
• Fakeの一般的な構成を簡単に変更可能

18
実験結果
• FF++で学習・テストした結果と、FF++で学習・CelebDFでテス
トした結果
→ 学習していないデータセットに対して汎化性能があることを示し
ている

19
実験結果
アブレーションスタディ
w/ adv 敵対的学習による生成(自己教師あり学習の補助タスクはなし)
w/ ran ランダム生成

20
実験結果
• アブレーションスタディ
自己教師あり学習のLoss関数の組み合わせを比
較

21
まとめ
• 自己教師あり学習とGANを用いたDeepFakeの
検出器を提案
• Fakeの領域やタイプも同時に学習することで
よりFake部分への感度が高いモデルを作成
• 結果、学習に使用したデータセット以外の分
布のデータに対しても汎化性能があることを
明らかにした

Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection

Recommandé

Recommandé

Contenu connexe

Similaire à Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection

Similaire à Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection (20)

Plus de harmonylab

Plus de harmonylab (20)