SlideShare une entreprise Scribd logo
1  sur  74
Télécharger pour lire hors ligne
動画認識サーベイv1
Video Recognition Group, cvpaper.challenge
原 健翔,⽚岡 裕雄,⽯川 裕地,笠井 誠⽃,
若宮 天雅,Hao Guoqing,中野 真理⼦
関連資料
● cvpaper.challengeでは過去にも
動画認識関連の資料を公開
● 3D CNNによる⼈物⾏動認識の動向
● 3D CNNによる動画像の時空間特徴表現
● 動画認識・キャプショニングの潮流
● Towards Performant Video Recognition
動画認識とは?
● 動画を対象としたパターン認識の問題
● 動画中の⼈物⾏動を認識するAction Recognitionを
始めとして様々なタスクが存在
● Action Recognition, Action Proposal Generation,
Temporal Action Localization, Spatiotemporal Action Detection,
Action Segmentation, Video Captioning, Video Summarization,
Video Generation, Video Object Segmentation,
Video Interpolation, Optical Flow Estimation...
● 本資料では主に各タスクの概要を紹介
動画認識の論⽂数の遷移
● CVPR, ICCV, ECCV論⽂中の
関連単語を含む割合の推移
● video, action, activity, behavior,
event, movie, motion
● 2014年からDeepでの画像認識の盛り
上がりで下⽕?
● 画像認識が完成に近づいて
動画認識に移⾏する研究者が多く
そこから盛り上がっていっている?
● 最近はちょっと落ち着き気味?
Action Recognition
Action Recognition
投球
⼊⼒:動画 出⼒:⾏動ラベル
⼀つの⾏動を含むように時間的に切り出された動画
● ⼀番基本的な問題設定
● 画像でいうとImageNetなどの画像認識
Action Recognitionの動向|Efficient
● 最近の⽅向性の⼀つとして効率的にAction Recognition
をしようというものが存在
● 3D CNNなど動画認識は計算コストが重いモデルが多い
● できるだけ⾼精度かつ効率的に計算可能にして
実⽤的なものにしていこうというのが⼀つの⽅向
Action Recognitionの動向|Efficient 1
S. Bhardwaj+, “Efficient Video Classification Using Fewer Frames”, CVPR 2019.
全フレームを使うTeacherを少ないフレームのみ使うStudentに蒸留して効率化
Action Recognitionの動向|Efficient 2
B. Korbar+, “SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition”, ICCV 2019.
動画中の重要なclipのみを抜き出して認識することで効率化 & ⾼精度化
Action Recognitionの動向|Efficient 3
J. Lin+, “TSM: Temporal Shift Module for Efficient Video Understanding”, ICCV 2019.
3D CNNは性能は良いが重いので2D CNNで
追加の計算コストなしに複数フレームの情報を畳み込むための⼿法を提案.
⼀部のChannelを時間⽅向にshiftさせることでフレームの情報を混ぜると
2D CNNでも3D CNN以上の性能を達成可能.
Action Recognitionの動向|Efficient 4
C. Luo+, “Grouped Spatial-Temporal Aggregation for Efficient Action Recognition”, ICCV 2019.
3D CNNは性能は良いが重いので3D CNNの⼀部を2D Convに置き換えて効率化
Action Recognitionの動向|Efficient 5
D. Tran+, “Video Classification with Channel-Separated Convolutional Networks”, ICCV 2019.
Standard
Bottleneck Block
Channel-separated Bottleneck Block
dw: depth-wise conv
3D CNNによる動画認識におけるgroup convolutionの有効性を詳細に検討し
効率的なモデルでSOTA性能を達成
Action Recognitionの動向|Efficient 6
C. Feichtenhofer, “X3D: Expanding Architectures for Efficient Video Recognition”, CVPR 2020 (accepted, Oral).
ベースとなる2D CNNからtemporal duration, frame rate , spatial resolution,
network width, bottleneck width, depthを⼀つずつ変化させていき
効率的かつ⾼精度なネットワークを探索.
Channelは狭くして時空間の解像度を⾼めるのが有効.
この分野で強い研究組織
● Facebook AI Research (FAIR)
● 上の6論⽂中半分はここから出ている
● Deep以前の定番⼿法Dense Trajectories(INRIA所属時)のH. Wang,
⻑い間3D CNNの定番モデルだったC3Dを提案したD. Tran,
毎回トップ会議で動画認識系論⽂を通しているC. Feichtenhoferなど
激強動画認識研究者が勢揃い
17
Action Proposal Generation
Action Proposal Generation の概要
• 動画中の action が起こっていそうな時間区間 (Action Proposal) を予測
• データセット
- ActivityNet 1.3 [2]
- 動画数 : 20k動画, 計 648 時間
- THUMOS14 [3]
- 動画数: 約400動画
• 評価指標
- The area under the Average Recall vs Average Number of Proposals
per Video (AR-AN) with tIoU thresholds
18
[1] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation”, In ECCV 2018
[2] F. Caba Heilbron et al., “ActivityNet: A large-scale video benchmark for human activity understanding“, In CVPR 2015
[3] Y. G. Jiang et al., “Thumos challenge: Action recognition with a large number of classes”, In ECCVWS 2014
[1]より引⽤
担当: ⽯川
Anchor-based Approaches
• マルチスケールな anchor を⽤いて proposal を⽣成
• 主な⼿法
- SSAD[1], CBR[2], TURN TAP[3]
• ⻑所
- マルチスケールの proposal を効果的に⽣成できる
- 全ての anchor の情報を同時に捉えるため,
- confidence score が信頼できることが多い
• 短所
- anchor の設計が難しい
- 正確でないことが多い
- 様々なサイズの時系列区間を捉えるのが難しい
19
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017
担当: ⽯川
Anchor-free Approaches
• action boundary や actioness などを評価してから proposal を⽣成
• 主な⼿法
- TAG[1], BSN[2], BMN[3]
• ⻑所
- 時系列⽅向の区間を柔軟に,かつ正確に proposal を⽣成可能
- BSP (Boundary Sensitive Proposal) features を⽤いれば,
- confidence score の信頼性が上がる
• 短所
- feature の設計と confidence score の評価が別々で⾏われるため,⾮効率的である
- 特徴量が単純になりがちで,時系列⽅向のコンテキストを捉えるには不⼗分である場合がある
- multi-stage で,end2end なフレームワークではない
20
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019
担当: ⽯川
Anchor-based approach: DAPs
• クリップごとの動画特徴量をLSTMに通し,⻑期的な特徴量を抽出
• この特徴量から anchorに対するoffsetを出⼒する
21
Victor Escorcia et al., “DAPs: Deep Action Proposals for Action Understanding”, In ECCV2016
Visual Encoder: 動画特徴抽出器 (C3D)
Sequence Encoder: C3Dから得られた特
徴量をLSTMに⼊⼒し,さらに⻑期的な時
系列情報を考慮した特徴へとエンコード
Localization Module: LSTMの出⼒から,
全結合層を組み合わせて,action
proposal の位置と⻑さを出⼒する
Prediction Module: Action proposal に
対する確信度を出⼒する.全結合層と
sigmoid関数からなる
担当: ⽯川
Anchor-based Approach: Segment-CNN (SCNN)
• action localization を⾏う two-stage 型のモデルを提案
• ⼀つ⽬のステージで,マルチスケールのスライディングウィンドウに対して
class-agnostic actionness を予測し,actionnessの⾼いものを proposal とする
• ⼆つ⽬のステージでは得られたproposalに対して⾏動分類を⾏う
22
Z. Shou et al., “Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs”, In CVPR2016
担当: ⽯川
SSAD: 物体検出で⽤いられるSSDを動画認識に拡張
• Tianwei Lin et al., “Single Shot Temporal Action Detection”, In ACM Multimedia 2017
23
• Anchor-based の⼿法 (実際には proposal に対する⾏動認識まで⾏う)
• 物体検出で⽤いられる SSD を action detection に拡張
• default anchor に対する時系列⽅向の offset を予測
(a) 複数のネットワークを⽤いて特徴抽出
(b) anchorごとにクラス分類とoffsetを推定
(c) 後処理としてNMSをし,最終的な出⼒
担当: ⽯川
Anchor-based approach: TURN TAP
• J. Gao et al., “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV 2017 24
• 動画を16フレームからなるUnitに分割
• Anchor Unitに加え,前後のUnitの特徴量も⽤いて,clip (unitの集合)の特徴量としている(clip pyramid)
• anchor unit内に,action instance が存在するかどうかの判定,および start と end のoffset を推定する
担当: ⽯川
Cascaded Boundary Regression(CBR)
• J. Gao et al., ”Cascaded Boundary Regression for Temporal Action Detection” In BMVC 2017
25
• action localization のための two-stage型のネットワークを提案
• スライディングウィンドウに対するオフセットを推定することで得られたproposalを
何度も同じネットワークに通すことで,proposalの時系列区間をrefinement する
Cascaded Boundary Regression (CBR)を提案
• class-agnostic なproposalを⽣成するステージと,⾏動分類をするステージのいずれにおいても
CBRが⽤いられている
提案⼿法の全体像 Cascaded Boundary Regression
担当: ⽯川
Anchor-free approach: Temporal Actionness Grouping
• Y. Zhao et al., “Temporal Action Detection with Structured Segment Networks”, In ICCV 2017 26
• actionness を予測したのち,ある𝛾における basin を求める
• そのbasinに対して,適当な閾値 τ を設定して,action proposal を⽣成する
• 𝛾 と τ を(0, 1)の範囲で均⼀にサンプリングすることで,様々なスケールの proposal を⽣成する
actionness: action probability
complemented actionness: 1 - actionness
𝛾
𝜏
𝛾: complemented actionness のある値
basin: ある𝛾を設定したときに,complemented actionnessが
それ以下になる領域
τ: 複数のbasinを結合したときの全体の時間間隔に対する
basin同⼠の間隔の割合
担当: ⽯川
CTAP: Complementary Temporal Action Proposal
27
• anchor-based approach と anchor-free approachを組み合わせた⼿法
• 動画の特徴量を,予め決めたsliding windowに対して,actionnessを評価する
Proposa-level Actionness Trustworthiness Estimator(PATE),およびsliding-windowを⽤いずに
proposalを推定するTAGの⼆つのネットワークに⼊⼒する.
• この⼆つのネットワークから得られた proposal を,boundary の調整と
proposalのランク付けを⾏うネットワークに⼊⼒することで,最終的な proposalを得る.
J. Gao et al., “CTAP: Complementary Temporal Action Proposal Generation”, In ECCV 2018
担当: ⽯川
BSN: ActivityNet Challenge2018 winner
• T. Lin et al., ”BSN: Boundary Sensitive Network for Temporal Action Proposal” In ECCV 2018
28
• anchor-free approach である Boundary Sensitive Network (BSN)を提案
• 動画特徴量から の starting point, ending point, actioness を推定
• starting point と ending point の起こりうる組み合わせを
action proposal と⾒なして,その区間での actioness で評価し,proposal を決定
担当: ⽯川
BMN: ActivityNet Challenge2019 winner
• anchor-free approach
• 動画特徴量から action boundary を予測した後,その組み合わせから proposal を作成
• 全ての proposal の信頼度を評価するための Boundary-Matching Confidence Map を作成し,
最終的なproposal を決定する 29
T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, In ICCV 2019
担当: ⽯川
30
Action Segmentation
Action Segmentation の概要
31
• 動画に対してフレームレベルでの⾏動認識を⾏う
• 主な⼿法
- Sliding window
- 準マルコフ過程
- フレーム特徴量 + RNN
- Temporal Convolution の応⽤
• データセット
- 50 Salads
- GTEA
- Breakfast
• 評価指標
- Frame-wise Accuracy
- Segmental Edit Distance
- Segmental F1 Score with tIoU thresholds
Segmental Spatiotemporal CNNs (ST-CNN)
• C. Lea et al. “Segmental Spatiotemporal CNNs for Fine-grained Action Segmentation” in ECCV 2016
32
auxiliary loss
• Spatial Component
- CNN Feature + Motion History Image をフレームの特徴量に
- フレームレベルでの分類に対する auxiliary loss をとる
• Temporal Component
- 注⽬フレームに対して,前後 d フレームをみる 1D acausal conv.
• Segmental Component
- 準マルコフ過程を⽤いて,アクションの遷移を捉える
• C. Lea et al., ”Temporal Convolutional Networks for Action Segmentation and Detection”, in CVPR2017
33
• Encoder-Decoder TCN と Dilated TCN の提案
• 注⽬フレームに対して未来の情報も⾒るAcausal Convolution と
過去の情報しか⾒ないCausal Convolution の検証も (acausalの⽅が良い)
Temporal Convolutional Networks(TCN)
Temporal Deformable Residual Networks
• P. Lei et al., “Temporal Deformable Residual Networks for Action Segmentation in Videos”, In CVPR 2018
34
outline
Deformable Temporal Residual Module
Temporal Deformable Convolution
• Deformable Convolution を action segmentation に適⽤
• 元の時系列解像度を維持する residual stream の使⽤
• Y. A. Farha et al., “MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation”, in CVPR2019
35
• TCN を多段に重ねた MS-TCNを提案し,over-segmentation errorを改善
• フレーム間での⾏動の確率の遷移にペナルティを与える smoothing loss を提案
分類 ⾏動の遷移
Multi-Stage Temporal Convolutional Network
Video Generation
動画認識のための⼈⼯データの⽣成
Video Recognition
• Supervised learning has made significant progress in context-aware video recognition
• However, supervised learning suffers from problems of:
• acquisition of supervised data is time-consuming and labor-intensive.
• copyright issue.
• mislabelling
To address these issues, we use synthetic data to learn context-aware video recognition.
Advantages of synthetic data
• Unlimited amount. --Huge datasets are what powers deep learning algorithms.
• Less labor-intensive.
• Perfect annotation.
• ImageNet -- a lot of mislabelling
• No copyright issue.
Disadvantages of synthetic data
• Poor performance on realism
• Inharmonious on appearance, location and scale.
• Overfitting
• Temporal Consistency (video only)
Inserting Videos into Videos --CVPR2019
1. 画像からビデオへのオブジェクト挿入
の領域を広げる重要で挑戦的な問題を
紹介します。
2. insert objectsを学習のため、リアルな
ペアデータ使わずに、合成fake
なペアデータを生成手法を提案しました。
3. 挑戦的な現実世界の入力ビデオに基づいて
現実的なビデオを合成できることを示します
Video Harmonization. --Temporally Coherent Video Harmonization Using Adversarial
Networks
Supervised dataset creation:
Given an image (a), we take it as the first ground-truth frame.
Then we cut out the foreground and apply inpainting to obtain
the pure background (c). By performing color adjustment on
the foreground of (a),we obtain the first composite frame (d).
By applying a random affine transform to the foregrounds of
(a) and (d), we obtain the second ground-truth frame (e) and
(b) the second composite frame (f).
Temporal GAN --Temporal Generative Adversarial Nets with Singular Value
Clipping
TGAN can learn a semantic representation of unlabeled videos, and is capable of generating videos.
Temporal GAN -2017
• Applications: Video Frame Interpolation, Conditional TGAN
• Conditional TGAN:
• In some cases, videos in a dataset contain some labels which correspond to a category of the video such as
“IceDancing” or “Baseball”. In order to exploit them and improve the quality of videos by the generator, we
also develop a Conditional TGAN (CTGAN), in which the generator can take both label l and latent variable
z0.
Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf
概要・新規性:
服の形状が明示的にモデル化された、動作中の3D
人間の最初の大規模データセットを公開しました。
体のリグメッシュを形状画像としてモデル化する
ために、細長い身体部分の球形のパラメーター化
を実行する新しいアルゴリズムを提案しました。
パラメトリックモデルに依存せずに、単一の画像
から人体と衣服の形状を推定するエンドツーエン
ドのネットワークを導入しました
結果
Title: ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS ーー https://arxiv.org/pdf/1907.06571.pdf
概要:
提案手法では、 GANを導入することにより、自然な
ビデオのモデリングという難しい問題に取り組みました。
UCF-101とKinectics-600でSOTAを実現しました。さらに、
複雑さと多様性の高い動画の生成もできます。
新規性:
1、提案モデルでは、最大256x256の解像度と最大48
フレームの長さで高品質のサンプルの自然な動画が
生成できます。
2、生成ビデオモデリングの新しいベンチマークとし
てKinetics-600でクラス条件付きビデオ合成を確立し
、DVD-GANの結果を強力なベースラインとして報告
します。
結果
手法
motionとcontentに基づく動画⽣成
• 動画⽣成⼿法は⼤体2種類がある︓
• future frame prediction
• 過去のframeから新たなframeを⽣成
• Decomposing Motion And Content For Natural Video Sequence Prediction ------ICLR2017
• Animating Landscape:
Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis
--SIGGRAPH Asia 2019
• generation
• Temporal Generative Adversarial Nets with Singular Value Clipping --ICCV2017
• MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
future frame prediction
• Decomposing Motion And Content For Natural Video Sequence Prediction
Animating Landscape:
Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video
Synthesis
training motion predictor
training appearance predictor
Generating Videos with Scene Dynamics --NIPS2016
• 動画をforegroundとbackgroundに分ける。
• 同じnoiseから背景と前景を⽣成
する
• We capitalize on large amounts of
unlabeled video in order to learn a
model of scene dynamics for both
video recognition tasks (e.g. action
classification) and video generation
tasks (e.g. future prediction)
Generating Videos with Scene Dynamics --NIPS2016
MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
既存手法は動画を潜在空間にmappingするのは
意味ないと批判。
同じmotionを異なる速さで、潜在空間上で異なる
特徴にmappingされている。
生成動画が固定長になる。
それらの問題を解決するため、潜在空間上の一つ
の特徴量から画像を生成、全部の画像をつなげて
動画になる。
潜在空間がmotion subspaceとcontent
subspaceがある。
content variableが固定される
motion variableは動画内で変化
MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020
A major problem with pixel-level video prediction
and generation methods is that they
attempt to model both static content and dynamic
motion in a single entangled generator, regardless
of whether they disentangle the motion and content
in the latent space or not.
1. proposed a video generation model TwoStreamVAN
as well as a more effective learning scheme, which
disentangle motion and content in the generation phase.
2. designed a multi-scale motion fusion mechanism and
further improve motion modeling by conditioning on
the spatial context;
TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020
メタサーベイ
NVIDIA https://github.com/NVlabs
計算リソースが十分
強い研究者を集める
TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting --
CVPR2020
Everybody Dance Nowみたいな研究
Title:Video Frame Interpolation via Adaptive Convolution ーーhttp://web.cecs.pdx.edu/~fliu/papers/cvpr2017-interp.pdf
Keywords: video interpolation
概要:
提案手法は従来の2段階(motion estimation and pixel
synthesis)を一つにまとめました。さらに、提案モデル
は入手困難なデータ(optical flowなど)を使わずに、
訓練ができる。
新規性:
1、video interpolationを一つのプロセスにしてるため、
競合する間で適切なトレードオフを行うことができた
、ロバーストな手法を提案します。
2、提案モデルは入手が困難なデータ(optical flowなど)
使わずに、広く利用可能な動画データを使用して
end-to-endトレーニングできます。
3、提案手法はオクルージュン、ぼやけのアーティファクト
、急激な明るさの変化などの難しい動画に対して高品質の
結果を生成できます。
結果
手法
Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf
Keywords: video interpolation
概要:
提案手法では、入力フレームだけではなくその
ピクセル単位のコンテキスト情報もワープし、
高品質の中間フレームを補間するためにそれら
を使用する。
新規性:
1、bidirectional flowを柔軟なフレーム合成モデル
と組み合わせて使用すると、オクルージョンなどの
困難なケースを処理し、モーション推定の不正確さに
対応できます。
2、提案法では、フレーム補間モデルが有益な補間を
実行できます。さらに、オプティカルフローを使用
して補間の初期化を適切に行うと役立ちます。
結果
手法
Dataset
最新動画データセット
● ここ数年で多数の⼤規模な動画データセットが続々登場
● 2019, 2020年のデータセット提案論⽂を紹介
最新動画データセット 1
Y. Tang+, “COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis”, CVPR 2019.
インストラクション動画の詳細⾏動認識⽤データセット
最新動画データセット 2
A. Miech+, “HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips”, ICCV 2019.
テキストのアノテーションが付与された超⼤規模動画データセット
最新動画データセット 3
H. Zhao+, “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization”, ICCV 2019.
Action Recognition & Temporal Localization⽤の⼤規模データセット
最新動画データセット 4
X. Wang+, “VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research”, ICCV 2019.
複数⾔語のVideo Captioningや動画&テキスト⼊⼒での翻訳⽤データセット
最新動画データセット 5
Q. Jiang+, “SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval”, ICCV 2019.
動画の複製・転載を検出するためのデータセット
最新動画データセット 6
Q. Kong+, “MMAct: A Large-Scale Dataset for Cross Modal Human Action Understanding”, ICCV 2019.
多視点・Multi-modalなAction Recognition⽤データセット
最新動画データセット 7
M. Martin+, “Drive&Act: A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles”, ICCV 2019.
⾞内の詳細⾏動認識⽤Multi-modalデータセット
最新動画データセット 8
Q. You+, “Action4D: Online Action Recognition in the Crowd and Clutter”, CVPR 2019.
⾏動認識⽤の多視点動画データセット
最新動画データセット 9
D. Shao+, “FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding”, CVPR 2020 (accepted, Oral).
階層的に詳細な⾏動をアノテーションした動画データセット
最新動画データセット 10
J. Liu+, “VIOLIN: A Large-Scale Dataset for Video-and-Language Inference”, CVPR 2020 (accepted).
動画に字幕とシーンを説明するpositive/negative⽂章が付与された動画データセット
最新動画データセット 11
S. Ghorbani+, “MoVi: A Large Multipurpose Motion and Video Dataset”, arXiv, 2020.
Mocapと動画と加速度センサが同期されたデータセット
最新動画データセットの傾向
● Video & Text
● キャプション,会話(字幕),ナレーションなど
単にテキストと⾔っても動画だと⾊々あるのでやることは多そう
● Multi-modal, Multi-view
● ⼤規模なYouTube動画データセットはたくさんあるので
それらとは異なる独⾃なデータを提案
● Fine-grained
● これまでのAction Recognitionはとにかく多様なクラスを識別する⽅向
だったのに対して最近はより詳細な識別を試みる⽅向
動画データセットの公開元
● 企業が絡んでいるものが多い
● Meitu (COIN), ByteDance (VaTeX, SVD), Hitachi (MMAct),
Alibaba (MMAct), Microsoft (Action4D, VIOLIN)
おわりに
● 動画認識の各タスクの概要や最新の研究を紹介
● 更に加筆・修正したv2の資料も後⽇公開予定

Contenu connexe

Tendances

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスYusuke Uchida
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 

Tendances (20)

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 

Similaire à 動画認識サーベイv1(メタサーベイ )

Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognitioncvpaper. challenge
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern TechniquesToru Tamaki
 
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
文献紹介:Temporal Convolutional Networks for Action Segmentation and DetectionToru Tamaki
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...ddnpaa
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video PriorDeep Learning JP
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtractionDaichi Suzuo
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-Hirokatsu Kataoka
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)cvpaper. challenge
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)cvpaper. challenge
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video GenerationDeep Learning JP
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)cvpaper. challenge
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -Akisato Kimura
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチToru Tamaki
 

Similaire à 動画認識サーベイv1(メタサーベイ ) (20)

Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
 
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ
 

動画認識サーベイv1(メタサーベイ )

  • 1. 動画認識サーベイv1 Video Recognition Group, cvpaper.challenge 原 健翔,⽚岡 裕雄,⽯川 裕地,笠井 誠⽃, 若宮 天雅,Hao Guoqing,中野 真理⼦
  • 2. 関連資料 ● cvpaper.challengeでは過去にも 動画認識関連の資料を公開 ● 3D CNNによる⼈物⾏動認識の動向 ● 3D CNNによる動画像の時空間特徴表現 ● 動画認識・キャプショニングの潮流 ● Towards Performant Video Recognition
  • 3. 動画認識とは? ● 動画を対象としたパターン認識の問題 ● 動画中の⼈物⾏動を認識するAction Recognitionを 始めとして様々なタスクが存在 ● Action Recognition, Action Proposal Generation, Temporal Action Localization, Spatiotemporal Action Detection, Action Segmentation, Video Captioning, Video Summarization, Video Generation, Video Object Segmentation, Video Interpolation, Optical Flow Estimation... ● 本資料では主に各タスクの概要を紹介
  • 4. 動画認識の論⽂数の遷移 ● CVPR, ICCV, ECCV論⽂中の 関連単語を含む割合の推移 ● video, action, activity, behavior, event, movie, motion ● 2014年からDeepでの画像認識の盛り 上がりで下⽕? ● 画像認識が完成に近づいて 動画認識に移⾏する研究者が多く そこから盛り上がっていっている? ● 最近はちょっと落ち着き気味?
  • 7. Action Recognitionの動向|Efficient ● 最近の⽅向性の⼀つとして効率的にAction Recognition をしようというものが存在 ● 3D CNNなど動画認識は計算コストが重いモデルが多い ● できるだけ⾼精度かつ効率的に計算可能にして 実⽤的なものにしていこうというのが⼀つの⽅向
  • 8. Action Recognitionの動向|Efficient 1 S. Bhardwaj+, “Efficient Video Classification Using Fewer Frames”, CVPR 2019. 全フレームを使うTeacherを少ないフレームのみ使うStudentに蒸留して効率化
  • 9. Action Recognitionの動向|Efficient 2 B. Korbar+, “SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition”, ICCV 2019. 動画中の重要なclipのみを抜き出して認識することで効率化 & ⾼精度化
  • 10. Action Recognitionの動向|Efficient 3 J. Lin+, “TSM: Temporal Shift Module for Efficient Video Understanding”, ICCV 2019. 3D CNNは性能は良いが重いので2D CNNで 追加の計算コストなしに複数フレームの情報を畳み込むための⼿法を提案. ⼀部のChannelを時間⽅向にshiftさせることでフレームの情報を混ぜると 2D CNNでも3D CNN以上の性能を達成可能.
  • 11. Action Recognitionの動向|Efficient 4 C. Luo+, “Grouped Spatial-Temporal Aggregation for Efficient Action Recognition”, ICCV 2019. 3D CNNは性能は良いが重いので3D CNNの⼀部を2D Convに置き換えて効率化
  • 12. Action Recognitionの動向|Efficient 5 D. Tran+, “Video Classification with Channel-Separated Convolutional Networks”, ICCV 2019. Standard Bottleneck Block Channel-separated Bottleneck Block dw: depth-wise conv 3D CNNによる動画認識におけるgroup convolutionの有効性を詳細に検討し 効率的なモデルでSOTA性能を達成
  • 13. Action Recognitionの動向|Efficient 6 C. Feichtenhofer, “X3D: Expanding Architectures for Efficient Video Recognition”, CVPR 2020 (accepted, Oral). ベースとなる2D CNNからtemporal duration, frame rate , spatial resolution, network width, bottleneck width, depthを⼀つずつ変化させていき 効率的かつ⾼精度なネットワークを探索. Channelは狭くして時空間の解像度を⾼めるのが有効.
  • 14. この分野で強い研究組織 ● Facebook AI Research (FAIR) ● 上の6論⽂中半分はここから出ている ● Deep以前の定番⼿法Dense Trajectories(INRIA所属時)のH. Wang, ⻑い間3D CNNの定番モデルだったC3Dを提案したD. Tran, 毎回トップ会議で動画認識系論⽂を通しているC. Feichtenhoferなど 激強動画認識研究者が勢揃い
  • 16. Action Proposal Generation の概要 • 動画中の action が起こっていそうな時間区間 (Action Proposal) を予測 • データセット - ActivityNet 1.3 [2] - 動画数 : 20k動画, 計 648 時間 - THUMOS14 [3] - 動画数: 約400動画 • 評価指標 - The area under the Average Recall vs Average Number of Proposals per Video (AR-AN) with tIoU thresholds 18 [1] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation”, In ECCV 2018 [2] F. Caba Heilbron et al., “ActivityNet: A large-scale video benchmark for human activity understanding“, In CVPR 2015 [3] Y. G. Jiang et al., “Thumos challenge: Action recognition with a large number of classes”, In ECCVWS 2014 [1]より引⽤ 担当: ⽯川
  • 17. Anchor-based Approaches • マルチスケールな anchor を⽤いて proposal を⽣成 • 主な⼿法 - SSAD[1], CBR[2], TURN TAP[3] • ⻑所 - マルチスケールの proposal を効果的に⽣成できる - 全ての anchor の情報を同時に捉えるため, - confidence score が信頼できることが多い • 短所 - anchor の設計が難しい - 正確でないことが多い - 様々なサイズの時系列区間を捉えるのが難しい 19 [1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017 [2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017 [3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017 担当: ⽯川
  • 18. Anchor-free Approaches • action boundary や actioness などを評価してから proposal を⽣成 • 主な⼿法 - TAG[1], BSN[2], BMN[3] • ⻑所 - 時系列⽅向の区間を柔軟に,かつ正確に proposal を⽣成可能 - BSP (Boundary Sensitive Proposal) features を⽤いれば, - confidence score の信頼性が上がる • 短所 - feature の設計と confidence score の評価が別々で⾏われるため,⾮効率的である - 特徴量が単純になりがちで,時系列⽅向のコンテキストを捉えるには不⼗分である場合がある - multi-stage で,end2end なフレームワークではない 20 [1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017 [2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018 [3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019 担当: ⽯川
  • 19. Anchor-based approach: DAPs • クリップごとの動画特徴量をLSTMに通し,⻑期的な特徴量を抽出 • この特徴量から anchorに対するoffsetを出⼒する 21 Victor Escorcia et al., “DAPs: Deep Action Proposals for Action Understanding”, In ECCV2016 Visual Encoder: 動画特徴抽出器 (C3D) Sequence Encoder: C3Dから得られた特 徴量をLSTMに⼊⼒し,さらに⻑期的な時 系列情報を考慮した特徴へとエンコード Localization Module: LSTMの出⼒から, 全結合層を組み合わせて,action proposal の位置と⻑さを出⼒する Prediction Module: Action proposal に 対する確信度を出⼒する.全結合層と sigmoid関数からなる 担当: ⽯川
  • 20. Anchor-based Approach: Segment-CNN (SCNN) • action localization を⾏う two-stage 型のモデルを提案 • ⼀つ⽬のステージで,マルチスケールのスライディングウィンドウに対して class-agnostic actionness を予測し,actionnessの⾼いものを proposal とする • ⼆つ⽬のステージでは得られたproposalに対して⾏動分類を⾏う 22 Z. Shou et al., “Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs”, In CVPR2016 担当: ⽯川
  • 21. SSAD: 物体検出で⽤いられるSSDを動画認識に拡張 • Tianwei Lin et al., “Single Shot Temporal Action Detection”, In ACM Multimedia 2017 23 • Anchor-based の⼿法 (実際には proposal に対する⾏動認識まで⾏う) • 物体検出で⽤いられる SSD を action detection に拡張 • default anchor に対する時系列⽅向の offset を予測 (a) 複数のネットワークを⽤いて特徴抽出 (b) anchorごとにクラス分類とoffsetを推定 (c) 後処理としてNMSをし,最終的な出⼒ 担当: ⽯川
  • 22. Anchor-based approach: TURN TAP • J. Gao et al., “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV 2017 24 • 動画を16フレームからなるUnitに分割 • Anchor Unitに加え,前後のUnitの特徴量も⽤いて,clip (unitの集合)の特徴量としている(clip pyramid) • anchor unit内に,action instance が存在するかどうかの判定,および start と end のoffset を推定する 担当: ⽯川
  • 23. Cascaded Boundary Regression(CBR) • J. Gao et al., ”Cascaded Boundary Regression for Temporal Action Detection” In BMVC 2017 25 • action localization のための two-stage型のネットワークを提案 • スライディングウィンドウに対するオフセットを推定することで得られたproposalを 何度も同じネットワークに通すことで,proposalの時系列区間をrefinement する Cascaded Boundary Regression (CBR)を提案 • class-agnostic なproposalを⽣成するステージと,⾏動分類をするステージのいずれにおいても CBRが⽤いられている 提案⼿法の全体像 Cascaded Boundary Regression 担当: ⽯川
  • 24. Anchor-free approach: Temporal Actionness Grouping • Y. Zhao et al., “Temporal Action Detection with Structured Segment Networks”, In ICCV 2017 26 • actionness を予測したのち,ある𝛾における basin を求める • そのbasinに対して,適当な閾値 τ を設定して,action proposal を⽣成する • 𝛾 と τ を(0, 1)の範囲で均⼀にサンプリングすることで,様々なスケールの proposal を⽣成する actionness: action probability complemented actionness: 1 - actionness 𝛾 𝜏 𝛾: complemented actionness のある値 basin: ある𝛾を設定したときに,complemented actionnessが それ以下になる領域 τ: 複数のbasinを結合したときの全体の時間間隔に対する basin同⼠の間隔の割合 担当: ⽯川
  • 25. CTAP: Complementary Temporal Action Proposal 27 • anchor-based approach と anchor-free approachを組み合わせた⼿法 • 動画の特徴量を,予め決めたsliding windowに対して,actionnessを評価する Proposa-level Actionness Trustworthiness Estimator(PATE),およびsliding-windowを⽤いずに proposalを推定するTAGの⼆つのネットワークに⼊⼒する. • この⼆つのネットワークから得られた proposal を,boundary の調整と proposalのランク付けを⾏うネットワークに⼊⼒することで,最終的な proposalを得る. J. Gao et al., “CTAP: Complementary Temporal Action Proposal Generation”, In ECCV 2018 担当: ⽯川
  • 26. BSN: ActivityNet Challenge2018 winner • T. Lin et al., ”BSN: Boundary Sensitive Network for Temporal Action Proposal” In ECCV 2018 28 • anchor-free approach である Boundary Sensitive Network (BSN)を提案 • 動画特徴量から の starting point, ending point, actioness を推定 • starting point と ending point の起こりうる組み合わせを action proposal と⾒なして,その区間での actioness で評価し,proposal を決定 担当: ⽯川
  • 27. BMN: ActivityNet Challenge2019 winner • anchor-free approach • 動画特徴量から action boundary を予測した後,その組み合わせから proposal を作成 • 全ての proposal の信頼度を評価するための Boundary-Matching Confidence Map を作成し, 最終的なproposal を決定する 29 T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, In ICCV 2019 担当: ⽯川
  • 29. Action Segmentation の概要 31 • 動画に対してフレームレベルでの⾏動認識を⾏う • 主な⼿法 - Sliding window - 準マルコフ過程 - フレーム特徴量 + RNN - Temporal Convolution の応⽤ • データセット - 50 Salads - GTEA - Breakfast • 評価指標 - Frame-wise Accuracy - Segmental Edit Distance - Segmental F1 Score with tIoU thresholds
  • 30. Segmental Spatiotemporal CNNs (ST-CNN) • C. Lea et al. “Segmental Spatiotemporal CNNs for Fine-grained Action Segmentation” in ECCV 2016 32 auxiliary loss • Spatial Component - CNN Feature + Motion History Image をフレームの特徴量に - フレームレベルでの分類に対する auxiliary loss をとる • Temporal Component - 注⽬フレームに対して,前後 d フレームをみる 1D acausal conv. • Segmental Component - 準マルコフ過程を⽤いて,アクションの遷移を捉える
  • 31. • C. Lea et al., ”Temporal Convolutional Networks for Action Segmentation and Detection”, in CVPR2017 33 • Encoder-Decoder TCN と Dilated TCN の提案 • 注⽬フレームに対して未来の情報も⾒るAcausal Convolution と 過去の情報しか⾒ないCausal Convolution の検証も (acausalの⽅が良い) Temporal Convolutional Networks(TCN)
  • 32. Temporal Deformable Residual Networks • P. Lei et al., “Temporal Deformable Residual Networks for Action Segmentation in Videos”, In CVPR 2018 34 outline Deformable Temporal Residual Module Temporal Deformable Convolution • Deformable Convolution を action segmentation に適⽤ • 元の時系列解像度を維持する residual stream の使⽤
  • 33. • Y. A. Farha et al., “MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation”, in CVPR2019 35 • TCN を多段に重ねた MS-TCNを提案し,over-segmentation errorを改善 • フレーム間での⾏動の確率の遷移にペナルティを与える smoothing loss を提案 分類 ⾏動の遷移 Multi-Stage Temporal Convolutional Network
  • 36. Video Recognition • Supervised learning has made significant progress in context-aware video recognition • However, supervised learning suffers from problems of: • acquisition of supervised data is time-consuming and labor-intensive. • copyright issue. • mislabelling To address these issues, we use synthetic data to learn context-aware video recognition.
  • 37. Advantages of synthetic data • Unlimited amount. --Huge datasets are what powers deep learning algorithms. • Less labor-intensive. • Perfect annotation. • ImageNet -- a lot of mislabelling • No copyright issue.
  • 38. Disadvantages of synthetic data • Poor performance on realism • Inharmonious on appearance, location and scale. • Overfitting • Temporal Consistency (video only)
  • 39. Inserting Videos into Videos --CVPR2019 1. 画像からビデオへのオブジェクト挿入 の領域を広げる重要で挑戦的な問題を 紹介します。 2. insert objectsを学習のため、リアルな ペアデータ使わずに、合成fake なペアデータを生成手法を提案しました。 3. 挑戦的な現実世界の入力ビデオに基づいて 現実的なビデオを合成できることを示します
  • 40. Video Harmonization. --Temporally Coherent Video Harmonization Using Adversarial Networks Supervised dataset creation: Given an image (a), we take it as the first ground-truth frame. Then we cut out the foreground and apply inpainting to obtain the pure background (c). By performing color adjustment on the foreground of (a),we obtain the first composite frame (d). By applying a random affine transform to the foregrounds of (a) and (d), we obtain the second ground-truth frame (e) and (b) the second composite frame (f).
  • 41. Temporal GAN --Temporal Generative Adversarial Nets with Singular Value Clipping TGAN can learn a semantic representation of unlabeled videos, and is capable of generating videos.
  • 42. Temporal GAN -2017 • Applications: Video Frame Interpolation, Conditional TGAN • Conditional TGAN: • In some cases, videos in a dataset contain some labels which correspond to a category of the video such as “IceDancing” or “Baseball”. In order to exploit them and improve the quality of videos by the generator, we also develop a Conditional TGAN (CTGAN), in which the generator can take both label l and latent variable z0.
  • 43. Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf 概要・新規性: 服の形状が明示的にモデル化された、動作中の3D 人間の最初の大規模データセットを公開しました。 体のリグメッシュを形状画像としてモデル化する ために、細長い身体部分の球形のパラメーター化 を実行する新しいアルゴリズムを提案しました。 パラメトリックモデルに依存せずに、単一の画像 から人体と衣服の形状を推定するエンドツーエン ドのネットワークを導入しました 結果
  • 44. Title: ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS ーー https://arxiv.org/pdf/1907.06571.pdf 概要: 提案手法では、 GANを導入することにより、自然な ビデオのモデリングという難しい問題に取り組みました。 UCF-101とKinectics-600でSOTAを実現しました。さらに、 複雑さと多様性の高い動画の生成もできます。 新規性: 1、提案モデルでは、最大256x256の解像度と最大48 フレームの長さで高品質のサンプルの自然な動画が 生成できます。 2、生成ビデオモデリングの新しいベンチマークとし てKinetics-600でクラス条件付きビデオ合成を確立し 、DVD-GANの結果を強力なベースラインとして報告 します。 結果 手法
  • 45. motionとcontentに基づく動画⽣成 • 動画⽣成⼿法は⼤体2種類がある︓ • future frame prediction • 過去のframeから新たなframeを⽣成 • Decomposing Motion And Content For Natural Video Sequence Prediction ------ICLR2017 • Animating Landscape: Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis --SIGGRAPH Asia 2019 • generation • Temporal Generative Adversarial Nets with Singular Value Clipping --ICCV2017 • MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
  • 46. future frame prediction • Decomposing Motion And Content For Natural Video Sequence Prediction
  • 47. Animating Landscape: Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis training motion predictor training appearance predictor
  • 48. Generating Videos with Scene Dynamics --NIPS2016 • 動画をforegroundとbackgroundに分ける。 • 同じnoiseから背景と前景を⽣成 する • We capitalize on large amounts of unlabeled video in order to learn a model of scene dynamics for both video recognition tasks (e.g. action classification) and video generation tasks (e.g. future prediction)
  • 49. Generating Videos with Scene Dynamics --NIPS2016
  • 50. MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018 既存手法は動画を潜在空間にmappingするのは 意味ないと批判。 同じmotionを異なる速さで、潜在空間上で異なる 特徴にmappingされている。 生成動画が固定長になる。 それらの問題を解決するため、潜在空間上の一つ の特徴量から画像を生成、全部の画像をつなげて 動画になる。 潜在空間がmotion subspaceとcontent subspaceがある。 content variableが固定される motion variableは動画内で変化
  • 51. MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
  • 52. TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020 A major problem with pixel-level video prediction and generation methods is that they attempt to model both static content and dynamic motion in a single entangled generator, regardless of whether they disentangle the motion and content in the latent space or not. 1. proposed a video generation model TwoStreamVAN as well as a more effective learning scheme, which disentangle motion and content in the generation phase. 2. designed a multi-scale motion fusion mechanism and further improve motion modeling by conditioning on the spatial context;
  • 53. TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020
  • 56. TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting -- CVPR2020 Everybody Dance Nowみたいな研究
  • 57. Title:Video Frame Interpolation via Adaptive Convolution ーーhttp://web.cecs.pdx.edu/~fliu/papers/cvpr2017-interp.pdf Keywords: video interpolation 概要: 提案手法は従来の2段階(motion estimation and pixel synthesis)を一つにまとめました。さらに、提案モデル は入手困難なデータ(optical flowなど)を使わずに、 訓練ができる。 新規性: 1、video interpolationを一つのプロセスにしてるため、 競合する間で適切なトレードオフを行うことができた 、ロバーストな手法を提案します。 2、提案モデルは入手が困難なデータ(optical flowなど) 使わずに、広く利用可能な動画データを使用して end-to-endトレーニングできます。 3、提案手法はオクルージュン、ぼやけのアーティファクト 、急激な明るさの変化などの難しい動画に対して高品質の 結果を生成できます。 結果 手法
  • 58. Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf Keywords: video interpolation 概要: 提案手法では、入力フレームだけではなくその ピクセル単位のコンテキスト情報もワープし、 高品質の中間フレームを補間するためにそれら を使用する。 新規性: 1、bidirectional flowを柔軟なフレーム合成モデル と組み合わせて使用すると、オクルージョンなどの 困難なケースを処理し、モーション推定の不正確さに 対応できます。 2、提案法では、フレーム補間モデルが有益な補間を 実行できます。さらに、オプティカルフローを使用 して補間の初期化を適切に行うと役立ちます。 結果 手法
  • 61. 最新動画データセット 1 Y. Tang+, “COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis”, CVPR 2019. インストラクション動画の詳細⾏動認識⽤データセット
  • 62. 最新動画データセット 2 A. Miech+, “HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips”, ICCV 2019. テキストのアノテーションが付与された超⼤規模動画データセット
  • 63. 最新動画データセット 3 H. Zhao+, “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization”, ICCV 2019. Action Recognition & Temporal Localization⽤の⼤規模データセット
  • 64. 最新動画データセット 4 X. Wang+, “VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research”, ICCV 2019. 複数⾔語のVideo Captioningや動画&テキスト⼊⼒での翻訳⽤データセット
  • 65. 最新動画データセット 5 Q. Jiang+, “SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval”, ICCV 2019. 動画の複製・転載を検出するためのデータセット
  • 66. 最新動画データセット 6 Q. Kong+, “MMAct: A Large-Scale Dataset for Cross Modal Human Action Understanding”, ICCV 2019. 多視点・Multi-modalなAction Recognition⽤データセット
  • 67. 最新動画データセット 7 M. Martin+, “Drive&Act: A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles”, ICCV 2019. ⾞内の詳細⾏動認識⽤Multi-modalデータセット
  • 68. 最新動画データセット 8 Q. You+, “Action4D: Online Action Recognition in the Crowd and Clutter”, CVPR 2019. ⾏動認識⽤の多視点動画データセット
  • 69. 最新動画データセット 9 D. Shao+, “FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding”, CVPR 2020 (accepted, Oral). 階層的に詳細な⾏動をアノテーションした動画データセット
  • 70. 最新動画データセット 10 J. Liu+, “VIOLIN: A Large-Scale Dataset for Video-and-Language Inference”, CVPR 2020 (accepted). 動画に字幕とシーンを説明するpositive/negative⽂章が付与された動画データセット
  • 71. 最新動画データセット 11 S. Ghorbani+, “MoVi: A Large Multipurpose Motion and Video Dataset”, arXiv, 2020. Mocapと動画と加速度センサが同期されたデータセット
  • 72. 最新動画データセットの傾向 ● Video & Text ● キャプション,会話(字幕),ナレーションなど 単にテキストと⾔っても動画だと⾊々あるのでやることは多そう ● Multi-modal, Multi-view ● ⼤規模なYouTube動画データセットはたくさんあるので それらとは異なる独⾃なデータを提案 ● Fine-grained ● これまでのAction Recognitionはとにかく多様なクラスを識別する⽅向 だったのに対して最近はより詳細な識別を試みる⽅向
  • 73. 動画データセットの公開元 ● 企業が絡んでいるものが多い ● Meitu (COIN), ByteDance (VaTeX, SVD), Hitachi (MMAct), Alibaba (MMAct), Microsoft (Action4D, VIOLIN)