8. Action Recognitionの動向|Efficient 1
S. Bhardwaj+, “Efficient Video Classification Using Fewer Frames”, CVPR 2019.
全フレームを使うTeacherを少ないフレームのみ使うStudentに蒸留して効率化
9. Action Recognitionの動向|Efficient 2
B. Korbar+, “SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition”, ICCV 2019.
動画中の重要なclipのみを抜き出して認識することで効率化 & ⾼精度化
10. Action Recognitionの動向|Efficient 3
J. Lin+, “TSM: Temporal Shift Module for Efficient Video Understanding”, ICCV 2019.
3D CNNは性能は良いが重いので2D CNNで
追加の計算コストなしに複数フレームの情報を畳み込むための⼿法を提案.
⼀部のChannelを時間⽅向にshiftさせることでフレームの情報を混ぜると
2D CNNでも3D CNN以上の性能を達成可能.
11. Action Recognitionの動向|Efficient 4
C. Luo+, “Grouped Spatial-Temporal Aggregation for Efficient Action Recognition”, ICCV 2019.
3D CNNは性能は良いが重いので3D CNNの⼀部を2D Convに置き換えて効率化
12. Action Recognitionの動向|Efficient 5
D. Tran+, “Video Classification with Channel-Separated Convolutional Networks”, ICCV 2019.
Standard
Bottleneck Block
Channel-separated Bottleneck Block
dw: depth-wise conv
3D CNNによる動画認識におけるgroup convolutionの有効性を詳細に検討し
効率的なモデルでSOTA性能を達成
16. Action Proposal Generation の概要
• 動画中の action が起こっていそうな時間区間 (Action Proposal) を予測
• データセット
- ActivityNet 1.3 [2]
- 動画数 : 20k動画, 計 648 時間
- THUMOS14 [3]
- 動画数: 約400動画
• 評価指標
- The area under the Average Recall vs Average Number of Proposals
per Video (AR-AN) with tIoU thresholds
18
[1] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation”, In ECCV 2018
[2] F. Caba Heilbron et al., “ActivityNet: A large-scale video benchmark for human activity understanding“, In CVPR 2015
[3] Y. G. Jiang et al., “Thumos challenge: Action recognition with a large number of classes”, In ECCVWS 2014
[1]より引⽤
担当: ⽯川
17. Anchor-based Approaches
• マルチスケールな anchor を⽤いて proposal を⽣成
• 主な⼿法
- SSAD[1], CBR[2], TURN TAP[3]
• ⻑所
- マルチスケールの proposal を効果的に⽣成できる
- 全ての anchor の情報を同時に捉えるため,
- confidence score が信頼できることが多い
• 短所
- anchor の設計が難しい
- 正確でないことが多い
- 様々なサイズの時系列区間を捉えるのが難しい
19
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017
担当: ⽯川
18. Anchor-free Approaches
• action boundary や actioness などを評価してから proposal を⽣成
• 主な⼿法
- TAG[1], BSN[2], BMN[3]
• ⻑所
- 時系列⽅向の区間を柔軟に,かつ正確に proposal を⽣成可能
- BSP (Boundary Sensitive Proposal) features を⽤いれば,
- confidence score の信頼性が上がる
• 短所
- feature の設計と confidence score の評価が別々で⾏われるため,⾮効率的である
- 特徴量が単純になりがちで,時系列⽅向のコンテキストを捉えるには不⼗分である場合がある
- multi-stage で,end2end なフレームワークではない
20
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019
担当: ⽯川
19. Anchor-based approach: DAPs
• クリップごとの動画特徴量をLSTMに通し,⻑期的な特徴量を抽出
• この特徴量から anchorに対するoffsetを出⼒する
21
Victor Escorcia et al., “DAPs: Deep Action Proposals for Action Understanding”, In ECCV2016
Visual Encoder: 動画特徴抽出器 (C3D)
Sequence Encoder: C3Dから得られた特
徴量をLSTMに⼊⼒し,さらに⻑期的な時
系列情報を考慮した特徴へとエンコード
Localization Module: LSTMの出⼒から,
全結合層を組み合わせて,action
proposal の位置と⻑さを出⼒する
Prediction Module: Action proposal に
対する確信度を出⼒する.全結合層と
sigmoid関数からなる
担当: ⽯川
20. Anchor-based Approach: Segment-CNN (SCNN)
• action localization を⾏う two-stage 型のモデルを提案
• ⼀つ⽬のステージで,マルチスケールのスライディングウィンドウに対して
class-agnostic actionness を予測し,actionnessの⾼いものを proposal とする
• ⼆つ⽬のステージでは得られたproposalに対して⾏動分類を⾏う
22
Z. Shou et al., “Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs”, In CVPR2016
担当: ⽯川
36. Video Recognition
• Supervised learning has made significant progress in context-aware video recognition
• However, supervised learning suffers from problems of:
• acquisition of supervised data is time-consuming and labor-intensive.
• copyright issue.
• mislabelling
To address these issues, we use synthetic data to learn context-aware video recognition.
37. Advantages of synthetic data
• Unlimited amount. --Huge datasets are what powers deep learning algorithms.
• Less labor-intensive.
• Perfect annotation.
• ImageNet -- a lot of mislabelling
• No copyright issue.
38. Disadvantages of synthetic data
• Poor performance on realism
• Inharmonious on appearance, location and scale.
• Overfitting
• Temporal Consistency (video only)
40. Video Harmonization. --Temporally Coherent Video Harmonization Using Adversarial
Networks
Supervised dataset creation:
Given an image (a), we take it as the first ground-truth frame.
Then we cut out the foreground and apply inpainting to obtain
the pure background (c). By performing color adjustment on
the foreground of (a),we obtain the first composite frame (d).
By applying a random affine transform to the foregrounds of
(a) and (d), we obtain the second ground-truth frame (e) and
(b) the second composite frame (f).
41. Temporal GAN --Temporal Generative Adversarial Nets with Singular Value
Clipping
TGAN can learn a semantic representation of unlabeled videos, and is capable of generating videos.
42. Temporal GAN -2017
• Applications: Video Frame Interpolation, Conditional TGAN
• Conditional TGAN:
• In some cases, videos in a dataset contain some labels which correspond to a category of the video such as
“IceDancing” or “Baseball”. In order to exploit them and improve the quality of videos by the generator, we
also develop a Conditional TGAN (CTGAN), in which the generator can take both label l and latent variable
z0.
43. Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf
概要・新規性:
服の形状が明示的にモデル化された、動作中の3D
人間の最初の大規模データセットを公開しました。
体のリグメッシュを形状画像としてモデル化する
ために、細長い身体部分の球形のパラメーター化
を実行する新しいアルゴリズムを提案しました。
パラメトリックモデルに依存せずに、単一の画像
から人体と衣服の形状を推定するエンドツーエン
ドのネットワークを導入しました
結果
45. motionとcontentに基づく動画⽣成
• 動画⽣成⼿法は⼤体2種類がある︓
• future frame prediction
• 過去のframeから新たなframeを⽣成
• Decomposing Motion And Content For Natural Video Sequence Prediction ------ICLR2017
• Animating Landscape:
Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis
--SIGGRAPH Asia 2019
• generation
• Temporal Generative Adversarial Nets with Singular Value Clipping --ICCV2017
• MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
48. Generating Videos with Scene Dynamics --NIPS2016
• 動画をforegroundとbackgroundに分ける。
• 同じnoiseから背景と前景を⽣成
する
• We capitalize on large amounts of
unlabeled video in order to learn a
model of scene dynamics for both
video recognition tasks (e.g. action
classification) and video generation
tasks (e.g. future prediction)
52. TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020
A major problem with pixel-level video prediction
and generation methods is that they
attempt to model both static content and dynamic
motion in a single entangled generator, regardless
of whether they disentangle the motion and content
in the latent space or not.
1. proposed a video generation model TwoStreamVAN
as well as a more effective learning scheme, which
disentangle motion and content in the generation phase.
2. designed a multi-scale motion fusion mechanism and
further improve motion modeling by conditioning on
the spatial context;
61. 最新動画データセット 1
Y. Tang+, “COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis”, CVPR 2019.
インストラクション動画の詳細⾏動認識⽤データセット
62. 最新動画データセット 2
A. Miech+, “HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips”, ICCV 2019.
テキストのアノテーションが付与された超⼤規模動画データセット
63. 最新動画データセット 3
H. Zhao+, “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization”, ICCV 2019.
Action Recognition & Temporal Localization⽤の⼤規模データセット
64. 最新動画データセット 4
X. Wang+, “VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research”, ICCV 2019.
複数⾔語のVideo Captioningや動画&テキスト⼊⼒での翻訳⽤データセット
65. 最新動画データセット 5
Q. Jiang+, “SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval”, ICCV 2019.
動画の複製・転載を検出するためのデータセット
66. 最新動画データセット 6
Q. Kong+, “MMAct: A Large-Scale Dataset for Cross Modal Human Action Understanding”, ICCV 2019.
多視点・Multi-modalなAction Recognition⽤データセット
67. 最新動画データセット 7
M. Martin+, “Drive&Act: A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles”, ICCV 2019.
⾞内の詳細⾏動認識⽤Multi-modalデータセット
68. 最新動画データセット 8
Q. You+, “Action4D: Online Action Recognition in the Crowd and Clutter”, CVPR 2019.
⾏動認識⽤の多視点動画データセット
69. 最新動画データセット 9
D. Shao+, “FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding”, CVPR 2020 (accepted, Oral).
階層的に詳細な⾏動をアノテーションした動画データセット
70. 最新動画データセット 10
J. Liu+, “VIOLIN: A Large-Scale Dataset for Video-and-Language Inference”, CVPR 2020 (accepted).
動画に字幕とシーンを説明するpositive/negative⽂章が付与された動画データセット
71. 最新動画データセット 11
S. Ghorbani+, “MoVi: A Large Multipurpose Motion and Video Dataset”, arXiv, 2020.
Mocapと動画と加速度センサが同期されたデータセット