文献紹介：VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

VideoCLIP: Contrastive
Pre-training for Zero-shot
Video-Text Understanding
Hu Xu, Gargi Ghosh, Po-Yao Huang, Dmytro Okhonko, Armen Aghajanyan,
Florian Metze, Luke Zettlemoyer, and Christoph Feichtenhofer, EMNLP2021
細谷優（名工大玉木研）
2022/11/11

CLIP [Radford+, ICML2021]
nFine-tuning無しでも精度が高い事前学習モデルの作成
• テキスト表現と画像特徴の
ペアを予想するように学習
• ミニバッチ内の
コサイン類似度を計算
• WebImageText (WIT)
• データ数400Mの
画像&テキストのペア
• ImageNet-21k
[Deng+, CVPR2009]
は14M
Transformer
[Vaswani+, NeurIPS 2017]
ViT [Dosovitskiy+, ICLR 2021]
ResNet [He+, CVPR2016]
論文中のCLIPはViT-L/14@336
ミニバッチ

概要
n画像ではCLIPがZero-shot transferで成功
• Zero-shot transfer可能なVideo用の事前学習手法を提案
• 事前学習に公開されたデータセット
n映像特有の課題に対処
• 対応するキャプションがない
• 時間で区切った動画と
テキストのペアを使う
• ビデオクリップのマイニング
（正負に分ける）は困難
• Retrieval Augmented Training
• 類似した動画を検索する

関連研究
nZero-shot transferのための事前学習
• 類似度計算し，共同空間を学習
• MIL-NCE [Miech+, CVPR2020]
• CLIP
nMulti-modal Video-Text pre-training
• 対照学習を採用（zero-shot transfer適用可能）
• MIL-NCE
• Support-set [Patrick+, ICLR2021]
nRetrieval Augmented Training
• Pre-training via Paraphrasing [Lewis+, NeurIPS2020]

Video and Text Encoding
nVideoとText両方に，別々のTransformerを適用
nVideoをトークン化
nTransformerへ入力し，Average Pooling
• クラストークンは使わない
𝐶!: 映像， 𝑓"!""
: 事前学習済みエンコーダ，
𝑓"#$%
: MLP層で単語と同じ次元に
𝑓"&
: Video用Transformerエンコーダ，
𝑓"'
: Text用Transformerエンコーダ

Contrastive loss
n動画とテキストの対応関係を学習
• InfoNCE [Oord+, arXiv2018] のContrastive lossを利用
nデータを正例と負例に分ける方法
• Video-text clipsの構築
• Retrieval Augmented Trainingによる
正例の検索
𝑧!
"
: 正例（𝑧#と重なるText clipの埋め込み）
𝑧!
$
: 負例

Video-Text clipsの構築
nデータセットからVideoとTextがペアとなったclipsを作成
• 動画と解説（Text）がペアのデータセット（タイムスタンプ付き）
n1つのVideoからVideo-Text clipsを複数作成
• TextをサンプリングしText clipを作る
• Text clip 内にあるタイムスタンプをサンプリング
• Video clipの時間の中央になる
• ランダムな長さのVideo clipを作成し
Video-Text clipsに
• 3~32秒の動画になる

Retrieval Augmented Training
n右のアルゴリズムに従って
正例と負例を構築 Encoder 出力から
𝑍!（動画1つの特徴）を計算
同じ動画からサンプリング：正例 clips
別の動画からサンプリング：負例 clips
Faissを使用
検索の効率化のために， 𝑍!を
クラスタリング
3: 類似度が高い特徴同士が近く
なるindexを設定
4: 検索
2kの近いVideoからkだけサンプ
リング（これを正例とする）

実験したタスク
nText→Video Retrieval
• YouCook2 [Zou+, AAAI2018]
• MSR-VTT [Xu+, CVPR2016]
• DiDeMo [Hendricks, EMNLP2018]
nMultiple-choice VideoQA
• MSR-VTT
nAction segmentation
• COIN [Tang+, CVPR2019]
nAction step localization
• CrossTask [Zhukov, CVPR2019]

実験設定
nVideoCLIPの事前学習
• HowTo100M [Miech+, ICCV2019]
• 1.1Mのうち，4kをvalに用いる
nVideoの特徴抽出
• S3D [Xie+, ECCV2018]
nVideoとTextのTransformer
• BERT [Devlin+, NAACL2019]
• Videoは6層，Textは12層
nTokenizer
• Videoは34
Textは63のトークンに制限
nパラメータ
• epoch：25
• Batch size: 512
• Optimizer：Adam
• 学習率：5e-5
• Warm-up: 1000 steps
• スケジューラ：
polynomial decay
nその他
• 温度パラメータ：1.0
• 検索する近傍k：32

実験結果（Youcook2）
ntext-video retrieval
• Zero-shot transfer でMIL-NCEを上回る
nAblation study
• 実装方法以外の性能も示す
Ablation study
text-video retrieval

まとめ
nVideoでzero-shot transfer可能な学習方法を提案
• InfoNCE のContrastive loss
• Retrieval Augmented Training
n実験
• 複数タスクで評価
• Ablation study

CLIP :
Connecting Text and Images
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel
Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack
Clark, Gretchen Krueger, Ilya Sutskever, ICML2021

CLIP（実験）
nZero-shot transferで性能比較
• fine-tuning無しで様々な
データセットでクラス分類
• 画像と全てのクラスラベルを
入力し，ペアを予測（右図）
n改善
• Prompt engineering
• 単純なラベル予測ではなく，
文章の一部を予想
• 複数プロンプトで行い埋め込み
空間で平均化（ensembling）
Prompt engineering

CLIP（実験結果）
nZero-shot transferの性能
• ResNet-50（分類層追加）
の教師あり学習と比較
• 専門的な画像は識別が難しい
• 動画用のデータセットは
中央1フレームを入力
リンパ節腫瘍検出
衛星画像の識別
車間距離認識
動作認識用
データセット

CLIP 補足
概要の補足（論文中のコード）実験結果の補足（評価指標など）

実験結果（MSR-VTT）
Multiple-choice VideoQA

実験結果（残り）
Action segmentation
Action step localization

文献紹介：VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 文献紹介：VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

Similar to 文献紹介：VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (8)

文献紹介：VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding