SlideShare a Scribd company logo
1 of 38
Download to read offline
Blind Video Temporal Consistency via
Deep Video Prior
岩隈 啓悟 / Keigo Iwakuma
1
タイトル:Blind Video Temporal Consistecy via
     Deep Video Prior
著者:Chenyang Lei, Yazhou Xing, Qifeng Chen
所属:The Hong Kong University of Science and Technology (HKUST)
書誌情報:NeurIPS 2020
プロジェクト:https://chenyanglei.github.io/DVP/index.html
論文:https://arxiv.org/abs/2010.11838
実装:https://github.com/ChenyangLEI/deep-video-prior (TensorFlow 1)
2
目次:
1. 概要
2. タスク
3. 関連研究
4. 提案手法
5. 実験・結果
6. まとめ・感想
3
タイトル:Blind Video Temporal Consistecy via
     Deep Video Prior
1.概要
動画に対して画像処理を適用する場合、フレームごとに処理を行うことによって動画の持つ時
間方向への一貫性(Temporal Consistency)が失われてしまうことがある
本研究ではCNNが持つDeep Image Priorに着目し、これを時間方向への一貫性を保つため
の正則化として利用することで、従来に比べてシンプルな定式化でかつより客観的にも主観的
にも優れた結果が得られた
4
2.タスク
2.タスク
Blind Video Temporal Consistency:
動画の各フレームに対して個別に画像処理を行うことで
時間的な一貫性が失われる問題(flickeringなど)をどうにかしたい
背景(モチベーション):
スタイル変換や固有画像分解など様々な画像処理が成果を挙げている
しかし、それをそのまま動画に拡張すると上記のような問題が生じる
また、処理ごとに特有の拡張方法を考えるのは大変で時間もかかる
 ⇒ 処理内容はブラックボックスとして(=blind)これを解決したい
6
2.タスク
Blind Video Temporal Consistency:
7
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
Goal
2.タスク
Blind Video Temporal Consistency:
8
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
Goal(出力)
入力
入力
Blind
2.タスク
Blind Video Temporal Consistency:
9
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
入力
入力
Blind
時間的な一貫性を持たせるための損失または正則化
処理内容を保つための損失または正則化
Goal(出力)
3.関連研究
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
11
最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる)
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
12
勾配(エッジ)情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
そもそもオリジナルのワープが上手くいかない場合はその重
みを小さくする(※V = I)
最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる)
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
13
勾配(エッジ)情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
短所:
● 勾配情報だけでは複雑な処理内容を保持させることが難しい(例:画風のスタイル変換)
● 結果を伝播させる過程で誤差が積もるため徐々に処理内容が薄れていく
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
処理内容と一貫性に関する損失を用いて直接最終的なフレームを出力するモデルを作る
14
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
テスト時はRNNを用いて逐次的に4枚の入力から最終的なフレーム(の残差)を出力する
15RNNを利用することでどんな長さの動画でも構造的に時系列情報を扱える
前の論文と異なり最適化に長期的な一貫性も考慮した損失を用意
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
モデルは以下のような、 skip connectionとResBlockとConv LSTMを利用したFullConvNet
16
出力フレームは隣同士ほとんど同じなので細かい差異に注意が向くように残差を出力させている
オリジナルと最終的なフレームは見た目が大きく異なる場合があるため
skip connectionは設けない
長期的な一貫性の損失:
(最大で10フレーム間)
visibility mask:
(オリジナルフレームのワープがずれている部分は小さくなる)
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
一貫性に関する損失は、前の出力フレームをワープさせたものとの L1損失を使用
短期的な一貫性の損失:
オリジナルフレームのoptical flow を利用して、
前の出力フレームをワープさせたもの
17
オリジナルフレームのoptical flow:
T:総フレーム数、N:総ピクセル数
最終的な損失:
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
処理内容に関する損失は、処理されたフレームとの特徴マップでの L1損失を使用
処理内容の損失:
Content Perceptual Loss
VGG19の l 層目の特徴マップ(’relu4-3’を使用)
18
T:総フレーム数、N:総ピクセル数
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
短所:
● 訓練データを準備する必要がある
● 逐次的に最終的なフレームを求める以上、誤差が積もりやすく処理内容が薄れやすい
長所:
● 推論時の動作は速い( 418FPS on Nvidia Titan X with a resolution of 1280x720)
● シングルモデルで学習時になかった画像処理パターンにも対応可能
19
3.関連研究3
Deep Image Prior (CVPR 2018, Ulyanov)
CNNの構造自体が低次元な統計量から学習しやすいという特性を利用して、
画像のノイズ除去、補完、超解像など様々なタスクを行えることを実験的に示した論文
20
JPEG圧縮で劣化した画像
(Target)
何らかの値で固定した画像
(Input)
Inputを通したときの出力とTargetとの損失(MSEなど)が小さくなるように、ランダムに初期化したCNNのパラメータを学習していくと
劣化部分のような局所的な部分より大域的な部分を先に復元していくのがわかる、CNNが持つこの正則化効果をDeep Image Priorとしている
損失最小化
CNN
4.提案手法
4.提案手法
22
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
CNNを使うことで暗黙的に課される正則化のことを
論文ではDeep Video Priorと呼んでいる
画像処理
初期化した
CNN 処理内容の損失のみ、明示的に一貫性については設けない
以下の最適化でCNNのパラメータを学習し、特定のepochs(25−50程度)で学習をとめる
そのときのCNN出力を最終的なフレームとして使用する
4.提案手法
23
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
※
著者らの動機に対する自分の解釈としては
・学習初期のCNNは似た入力に対して同じような出力をする(経験則)
(最終的には似た入力に対してもその差異を復元できるようになる)
⇒ 似た入力に対しては共通部分から徐々に差異を学習していきそう(Deep Image Prior)
・動画は基本的には連続していて時間方向に一貫性があり各フレームが似ている
⇒ 一連の動画フレームに対しては上記の経験則が当てはまりそう
ということかなと思っています
画像処理
初期化した
CNN
4.提案手法
24
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
従来手法
前のフレームの結果に依存する
⇒長期の一貫性を保つのが難しい
処理内容 一貫性
4.提案手法
25
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
提案手法
処理内容 一貫性
Deep Video Priorによる
暗黙的な一貫性に関する正則化
⇒前フレームの結果に依存しない
4.提案手法
26
2種類のTemporal Inconsistencyについて
● Unimodal inconsistency:flickeringのような単一モードの中で生じる比較的小さな不安定さ
● Multimodal inconsistency:colorizationタスク(gray=>rgb)で対象の色がフレームごとに変わってしまう
ようなタスクの不良設定によって生じる比較的大きな不安定さ
4.提案手法
27
2種類のTemporal Inconsistencyに対するDeep Video Prior
トイ実験:ある連続する画像にノイズを加えて 2種類のTemporal Inconsistencyを用意する
 ⇒ Multimodal incosistencyに関しては適切な処理内容を保てないまま一貫性も失ってしまう
Unimodal Inconsistency
Multimodal Inconsistency
Multimodal Inconsistency
⇒ 上手く行く!
⇒ 上手くいかない
Iteratively Reweighted Trainingの提案
⇒ 上手く行く!
4.提案手法
28
Multimodal Inconsistencyに対するIteratively Reweighted Training
1つのメインモードを選んでくるような confidence mapと、そのメインモードとその他のモードに対応する 2枚の
画像を出力するモデルを設計し、以下の最適化問題でパラメータを学習するように変更する
Confidence map: 出力のメインモード
単一モードしか持たない対象に対しては閾値によって
処理されたフレームと出力のメインモードが近づくようにする
出力のその他のモード
最適化問題:
confidence mapの値によってそれぞれのモードと近い部分がより近づくようになる
(メインモードはいずれかのモードに近づく、実際は最初に渡す学習フレームがメインモードとなる)
5.実験・結果
5.実験・結果
実験の設定:
Architecture: U-Net
Loss: Perceptual Loss
IRT distance: L1
Dataset: DAIVS, the test set collected by Bonneel et al.
Optimizer: Adam, lr=0.0001 for all task
Epochs: 25 (Dehazing, spatial white balancing, and image enhancement)
or
50 (Intrinsic decomposition, colorization, style transfer, and CycleGAN)
Batchsize: 1 30
5.実験・結果
タスク:
31
Multimodal
Multimodal
5.実験・結果
評価指標:
1.Temporal Inconsistency … 最終的なフレームをoptical flowでワープしたときのL1誤差
2.Performance degradation (data fidelity) … 処理されたフレームと最終的なフレームの平均PSNR
比較手法:
関連手法1(表記[3])、 関連手法2(表記 [19])
32
※Occlusion判定された部分は評価から外す、各フレームは最初と隣合うフレームのペアで評価が行われる
5.実験・結果
定量評価:
関連手法1では一貫性はあるが処理内容が劣化している一方、関連手法2では処理内容を保てているが
一貫性で低い評価となった
提案手法はいずれの評価でも良い結果となっている
33
5.実験・結果
定性評価:
左の図はMultimodal Inconsistencyが生じる場合の結果である、提案手法が処理内容、一貫性ともに最
も維持できていることが分かる
右のグラフは別タスクでのフレームごとの輝度平均であり、提案手法が安定していることが分かる
34
5.実験・結果
主観評価(User Study):
20人の被験者に時間方向への一貫性と処理内容の類似度の両方で最も優れたものを選んでもらった結
果が以下である(計107動画を使用)
ほとんどのタスクで提案手法が最も良く評価されており、特に Multimodal Inconsistencyが生じる場合で圧
倒的な結果となった
35
5.実験・結果
Ablation Study:
1. IRTの有無による最終的なフレームの比較である、定量評価である PSNRではIRTを使わない手法
が上回ったが、見た目は明らかに IRTを使った方が良い
2. 異なるCNN Architectureを用いた最終的なフレームの比較である、それぞれで細かい差はあるが、
どれも安定した結果が得られた
36
5.実験・結果
学習を止めるタイミング:
動画の長さやモーションの大きさによってまちまちだが基本的には 25か50epochsでよい
以下のようにTemporal inconsistencyがしばらく変動しないタイミングがあるため、タスクによって
validation dataを用意しそのようなタイミングを選べばいい
ただし、flickeringなどを再現するにはそれより遥かに多い回数学習を行う必要があるのであまり慎重にな
る必要もない
37
6.まとめ・感想
まとめ
● 動画フレームを個々に画像処理することで時間方向の一貫性が失われてしまう問題に対して CNN
の持つ特性を活かすことで暗黙的に正則化を行うことができ、従来では難しかったケースに対しても
シンプルな方法で優れた結果を示せた
● 学習データが必要ない一方で、テスト時に学習を行う必要があり実用上のボトルネックとなっている
感想
● シンプルなアイデアで従来より大幅な改善が出来ている印象ですごかった
● 一方で、正解となるデータがなくタスクに対する良い評価指標がないのが難しいと感じた
● 今の所見え方に関しての一貫性を重視している印象だが、後段のタスクのための画像処理などに
対してその用途での一貫性が保てるようになると応用が広そうだなと思った。
● multi-camera consistencyに対する効果もこれから検討したいとのことだったのですが、そういった
動向にも期待したい
38

More Related Content

What's hot

What's hot (20)

ICLR2020読み会 Stable Rank Normalization
ICLR2020読み会 Stable Rank NormalizationICLR2020読み会 Stable Rank Normalization
ICLR2020読み会 Stable Rank Normalization
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 

Similar to [DL輪読会]Blind Video Temporal Consistency via Deep Video Prior

[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 

Similar to [DL輪読会]Blind Video Temporal Consistency via Deep Video Prior (20)

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

Recently uploaded (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior