[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

Blind Video Temporal Consistency via
Deep Video Prior
岩隈啓悟 / Keigo Iwakuma
1

タイトル：Blind Video Temporal Consistecy via
　　　　　Deep Video Prior
著者：Chenyang Lei, Yazhou Xing, Qifeng Chen
所属：The Hong Kong University of Science and Technology (HKUST)
書誌情報：NeurIPS 2020
プロジェクト：https://chenyanglei.github.io/DVP/index.html
論文：https://arxiv.org/abs/2010.11838
実装：https://github.com/ChenyangLEI/deep-video-prior (TensorFlow 1)
2

目次：
1. 概要
2. タスク
3. 関連研究
4. 提案手法
5. 実験・結果
6. まとめ・感想
3
タイトル：Blind Video Temporal Consistecy via
　　　　　Deep Video Prior

１．概要
動画に対して画像処理を適用する場合、フレームごとに処理を行うことによって動画の持つ時
間方向への一貫性（Temporal Consistency）が失われてしまうことがある
本研究ではCNNが持つDeep Image Priorに着目し、これを時間方向への一貫性を保つため
の正則化として利用することで、従来に比べてシンプルな定式化でかつより客観的にも主観的
にも優れた結果が得られた
4

２．タスク
Blind Video Temporal Consistency：
動画の各フレームに対して個別に画像処理を行うことで
時間的な一貫性が失われる問題（flickeringなど）をどうにかしたい
背景（モチベーション）：
スタイル変換や固有画像分解など様々な画像処理が成果を挙げている
しかし、それをそのまま動画に拡張すると上記のような問題が生じる
また、処理ごとに特有の拡張方法を考えるのは大変で時間もかかる
　⇒　処理内容はブラックボックスとして（＝blind）これを解決したい
6

２．タスク
7
オリジナルフレーム
（一貫性がある）
処理されたフレーム
（一貫性がない）
画像処理
最終的なフレーム
（処理内容を残しつつ
　一貫性を持たせる）
Goal

２．タスク
8
画像処理
Goal（出力）
入力
入力
Blind

２．タスク
9
画像処理
入力
入力
Blind
時間的な一貫性を持たせるための損失または正則化
処理内容を保つための損失または正則化
Goal（出力）

３．関連研究１
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics（処理内容）とTemporal Consistency（一貫
性）の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
11
最初のフレームはレファレンスとして、２番目の出力から順に解いていく（結果を伝播させる）

12
勾配（エッジ）情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
そもそもオリジナルのワープが上手くいかない場合はその重
みを小さくする（※V = I）
最初のフレームはレファレンスとして、２番目の出力から順に解いていく（結果を伝播させる）

13
勾配（エッジ）情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
短所：
● 勾配情報だけでは複雑な処理内容を保持させることが難しい（例：画風のスタイル変換）
● 結果を伝播させる過程で誤差が積もるため徐々に処理内容が薄れていく

３．関連研究２
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
処理内容と一貫性に関する損失を用いて直接最終的なフレームを出力するモデルを作る
14

テスト時はRNNを用いて逐次的に４枚の入力から最終的なフレーム（の残差）を出力する
15RNNを利用することでどんな長さの動画でも構造的に時系列情報を扱える
前の論文と異なり最適化に長期的な一貫性も考慮した損失を用意

モデルは以下のような、 skip connectionとResBlockとConv LSTMを利用したFullConvNet
16
出力フレームは隣同士ほとんど同じなので細かい差異に注意が向くように残差を出力させている
オリジナルと最終的なフレームは見た目が大きく異なる場合があるため
skip connectionは設けない

長期的な一貫性の損失：
（最大で10フレーム間）
visibility mask：
（オリジナルフレームのワープがずれている部分は小さくなる）
一貫性に関する損失は、前の出力フレームをワープさせたものとの L1損失を使用
短期的な一貫性の損失：
オリジナルフレームのoptical flow を利用して、
前の出力フレームをワープさせたもの
17
オリジナルフレームのoptical flow：
T：総フレーム数、N：総ピクセル数

最終的な損失：
処理内容に関する損失は、処理されたフレームとの特徴マップでの L1損失を使用
処理内容の損失：
Content Perceptual Loss
VGG19の l 層目の特徴マップ（’relu4-3’を使用）
18
T：総フレーム数、N：総ピクセル数

短所：
● 訓練データを準備する必要がある
● 逐次的に最終的なフレームを求める以上、誤差が積もりやすく処理内容が薄れやすい
長所：
● 推論時の動作は速い（ 418FPS on Nvidia Titan X with a resolution of 1280x720）
● シングルモデルで学習時になかった画像処理パターンにも対応可能
19

３．関連研究３
Deep Image Prior (CVPR 2018, Ulyanov)
CNNの構造自体が低次元な統計量から学習しやすいという特性を利用して、
画像のノイズ除去、補完、超解像など様々なタスクを行えることを実験的に示した論文
20
JPEG圧縮で劣化した画像
（Target）
何らかの値で固定した画像
（Input）
Inputを通したときの出力とTargetとの損失（MSEなど）が小さくなるように、ランダムに初期化したCNNのパラメータを学習していくと
劣化部分のような局所的な部分より大域的な部分を先に復元していくのがわかる、CNNが持つこの正則化効果をDeep Image Priorとしている
損失最小化
CNN

４．提案手法
22
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ１で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分（時間方向に一貫している部分）が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
CNNを使うことで暗黙的に課される正則化のことを
論文ではDeep Video Priorと呼んでいる
画像処理
初期化した
CNN 処理内容の損失のみ、明示的に一貫性については設けない
以下の最適化でCNNのパラメータを学習し、特定のepochs（25−50程度）で学習をとめる
そのときのCNN出力を最終的なフレームとして使用する

４．提案手法
23
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分（時間方向に一貫している部分）が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
※
著者らの動機に対する自分の解釈としては
・学習初期のCNNは似た入力に対して同じような出力をする（経験則）
（最終的には似た入力に対してもその差異を復元できるようになる）
⇒　似た入力に対しては共通部分から徐々に差異を学習していきそう（Deep Image Prior）
・動画は基本的には連続していて時間方向に一貫性があり各フレームが似ている
⇒　一連の動画フレームに対しては上記の経験則が当てはまりそう
ということかなと思っています
画像処理
初期化した
CNN

４．提案手法
24
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分（時間方向に一貫している部分）が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
従来手法
前のフレームの結果に依存する
⇒長期の一貫性を保つのが難しい
処理内容一貫性

４．提案手法
25
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分（時間方向に一貫している部分）が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
提案手法
処理内容一貫性
Deep Video Priorによる
暗黙的な一貫性に関する正則化
⇒前フレームの結果に依存しない

４．提案手法
26
２種類のTemporal Inconsistencyについて
● Unimodal inconsistency：flickeringのような単一モードの中で生じる比較的小さな不安定さ
● Multimodal inconsistency：colorizationタスク（gray=>rgb）で対象の色がフレームごとに変わってしまう
ようなタスクの不良設定によって生じる比較的大きな不安定さ

４．提案手法
27
２種類のTemporal Inconsistencyに対するDeep Video Prior
トイ実験：ある連続する画像にノイズを加えて 2種類のTemporal Inconsistencyを用意する
　⇒　Multimodal incosistencyに関しては適切な処理内容を保てないまま一貫性も失ってしまう
Unimodal Inconsistency
Multimodal Inconsistency
Multimodal Inconsistency
⇒　上手く行く！
⇒　上手くいかない
Iteratively Reweighted Trainingの提案
⇒　上手く行く！

４．提案手法
28
Multimodal Inconsistencyに対するIteratively Reweighted Training
1つのメインモードを選んでくるような confidence mapと、そのメインモードとその他のモードに対応する 2枚の
画像を出力するモデルを設計し、以下の最適化問題でパラメータを学習するように変更する
Confidence map：出力のメインモード
単一モードしか持たない対象に対しては閾値によって
処理されたフレームと出力のメインモードが近づくようにする
出力のその他のモード
最適化問題：
confidence mapの値によってそれぞれのモードと近い部分がより近づくようになる
（メインモードはいずれかのモードに近づく、実際は最初に渡す学習フレームがメインモードとなる）

５．実験・結果
実験の設定：
Architecture: U-Net
Loss: Perceptual Loss
IRT distance: L1
Dataset: DAIVS, the test set collected by Bonneel et al.
Optimizer: Adam, lr=0.0001 for all task
Epochs: 25 (Dehazing, spatial white balancing, and image enhancement)
or
50 (Intrinsic decomposition, colorization, style transfer, and CycleGAN)
Batchsize: 1 30

タスク：
31
Multimodal
Multimodal

評価指標：
１．Temporal Inconsistency … 最終的なフレームをoptical flowでワープしたときのL1誤差
２．Performance degradation (data fidelity) … 処理されたフレームと最終的なフレームの平均PSNR
比較手法：
関連手法１（表記[3]）、　関連手法２（表記 [19]）
32
※Occlusion判定された部分は評価から外す、各フレームは最初と隣合うフレームのペアで評価が行われる

定量評価：
関連手法１では一貫性はあるが処理内容が劣化している一方、関連手法２では処理内容を保てているが
一貫性で低い評価となった
提案手法はいずれの評価でも良い結果となっている
33

定性評価：
左の図はMultimodal Inconsistencyが生じる場合の結果である、提案手法が処理内容、一貫性ともに最
も維持できていることが分かる
右のグラフは別タスクでのフレームごとの輝度平均であり、提案手法が安定していることが分かる
34

主観評価（User Study）：
２０人の被験者に時間方向への一貫性と処理内容の類似度の両方で最も優れたものを選んでもらった結
果が以下である（計107動画を使用）
ほとんどのタスクで提案手法が最も良く評価されており、特に Multimodal Inconsistencyが生じる場合で圧
倒的な結果となった
35

Ablation Study：
1. IRTの有無による最終的なフレームの比較である、定量評価である PSNRではIRTを使わない手法
が上回ったが、見た目は明らかに IRTを使った方が良い
2. 異なるCNN Architectureを用いた最終的なフレームの比較である、それぞれで細かい差はあるが、
どれも安定した結果が得られた
36

学習を止めるタイミング：
動画の長さやモーションの大きさによってまちまちだが基本的には 25か50epochsでよい
以下のようにTemporal inconsistencyがしばらく変動しないタイミングがあるため、タスクによって
validation dataを用意しそのようなタイミングを選べばいい
ただし、flickeringなどを再現するにはそれより遥かに多い回数学習を行う必要があるのであまり慎重にな
る必要もない
37

６．まとめ・感想
まとめ
● 動画フレームを個々に画像処理することで時間方向の一貫性が失われてしまう問題に対して CNN
の持つ特性を活かすことで暗黙的に正則化を行うことができ、従来では難しかったケースに対しても
シンプルな方法で優れた結果を示せた
● 学習データが必要ない一方で、テスト時に学習を行う必要があり実用上のボトルネックとなっている
感想
● シンプルなアイデアで従来より大幅な改善が出来ている印象ですごかった
● 一方で、正解となるデータがなくタスクに対する良い評価指標がないのが難しいと感じた
● 今の所見え方に関しての一貫性を重視している印象だが、後段のタスクのための画像処理などに
対してその用途での一貫性が保てるようになると応用が広そうだなと思った。
● multi-camera consistencyに対する効果もこれから検討したいとのことだったのですが、そういった
動向にも期待したい
38

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

Similar to [DL輪読会]Blind Video Temporal Consistency via Deep Video Prior (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (11)

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior