SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
Length-Controllable
Image Captioning
Chaorui Deng, Ning Ding, Mingkui Tan, and Qi Wu
ECCV2020
2022/11/11
仁田智也 (名工大玉木研)
概要
nImage Captioningの生成文の長さを調整する手法の提案
• 既存のモデルに対して適用可能
• 既存のモデルに適用することで同等以上の性能
nImage CaptionigモデルのLaBERTの提案
• 非自己回帰モデル
• 計算量が生成する文の長さに比例しない
• 生成文の長さの調整を適応可能
2 C. Deng et al.
Reference image captions
A pizza on a pan sitting on a table.
A close up of a pizza in a pan on a table.
A pizza sits on a plate on a dark surface.
A person sitting at a table where a pizza is sitting.
A pizza topped with different toppings is brought to a table.
Predicted image captions
Rough VLP A pizza sitting on top of a pan on a table.
Ours Lv1 A pizza that is sitting on a table.
Ours Lv2 A pizza with tomatoes and spinach on a table.
Ours Lv3 A pizza with tomatoes cheese and toppings on it sitting on a table.
Detailed Ours Lv4 A pizza sitting on top of a pan with a lot of cheese spinach and tomatoes on it.
関連研究
n生成文の制御
• ASG2Caption model (Chen+, CVPR2020)
• シーングラフを用いて生成文の多様性を制御
• 多様性の向上
• 精度の低下
• 菊池らの研究 (Kikuchi+, EMNLP2016)
• 生成文の長さの制御
• 一部モデルのみに適用可能
• 柔軟性が欠如
n非自己回帰生成モデル
• NAT (Gu+, arXiv2017)
• 翻訳タスクでの非自己回帰モデル
• 計算量が系列長に比例しない
生成文の長さの制御
nアノテーションの文章の長さの範囲で長さレベルを定める
• 文章の単語数によって分割
• Ex. [1, 9], [10, 14], [15, 19], [20, 25]
• 分割する単語数の基準はデータがある程度均等になるように定める
nWord embeddingの際に長さレベルの埋め込み情報を加える
• i番目の単語に対する埋め込みベクトル:𝒙!!
= 𝒆" + 𝒆#,!!
+ 𝒆%,&
• 𝒆#,!!
:単語埋め込み
• 𝒆%,&:位置埋め込み
• 𝒆":長さレベル埋め込み
• 𝒆" = 𝑊"
'
𝑡"
• 𝑊"
'
∈ ℝ(×*:学習可能な埋め込み行列
• 𝑡" ∈ ℝ( :長さレベルに対応するワンホットベクトル
LaBERT
n入力画像のembedding
• 入力画像に学習済み物体検出をかける
• 𝒇+,&:検出物体iに対応する特徴量ベクトル
• 𝒇,,&:検出物体iに対応するクラス確率分布
• 𝒇",&:検出物体iに対応する局所特徴量
• ex. [左上x座標, 左上y座標, 右下x座標, 右下y座標, bboxの面積比]
• 𝒙-!
= 𝑾+
'𝒇+,& + 𝑾%
' LN 𝒇,,& , LN 𝒇",& + 𝒆&./
• 𝒆&./:埋め込みベクトル
Length-Controllable Image Captioning 7
A . . .
N× Transformer Blocks
[MASK] in a [MASK] [EOS]
. . .
. . .
. . .
"#$
"#%
"#&
"#'
"($
"(%
"(&
"()
"(*
"(+
person kayak
Image type embedding
Location embedding
Visual embedding
Length level embedding
Position embedding
Word embedding
LaBERT
nWord embedding
• 長さレベル埋め込みを同様に行う
• 学習時
• 文章にランダムにマスクをかけてembeddingをする
• マスクをかけた部分の単語を推論する
Length-Controllable Image Captioning 7
A . . .
N× Transformer Blocks
[MASK] in a [MASK] [EOS]
. . .
. . .
. . .
"#$
"#%
"#&
"#'
"($
"(%
"(&
"()
"(*
"(+
person kayak
Image type embedding
Location embedding
Visual embedding
Length level embedding
Position embedding
Word embedding
LaBERT
n推論時
• 生成文の最大の長さのマスクを入力
• 各単語を推論する
• 𝑝& 𝑠& = [𝐸𝑂𝑆] ← 𝛾0"!#"1&
𝑝& 𝑠& = [𝐸𝑂𝑆] , ∀&∈ [𝐿"2#, 𝐿3&/3]
• 系列が最後の方になるにつれて[𝐸𝑂𝑆]の確率をあげる
• 推論時の各単語のconfidence scoreを以下のように更新する
• 𝑐& ← :
max
!
𝑝& 𝑠& = 𝑠 i is masked position
,!4567
$
%! !!8!
9
otherwise
• 各単語のconfidence scoreが下位n個にマスクをかけてもう一度推論を行う
• nはステップが進む毎に減衰させる
Length-Controllable Image Captioning 9
Mask-predict-update process
Step 1 [MASK] [MASK] [MASK] [MASK] [MASK] [MASK]…..[MASK] [MASK] [MASK]
A dog is on the the on a a a a a a a a walking in the sidewalk.
A dog laying on the side of a street with a a walking a a walking in the sidewalk.
A dog laying on the side of a street with a woman walking on the sidewalk of the street.
Step T A dog sitting on the side of a street with a woman walking on the sidewalk in the background.
実験設定
n長さレベル埋め込み
• モデル
• AoANet (Huang+, ICCV2019)
• VLP (Zhou+, AAAI2020)
• データセット
• MSCOCO (Lin+, ECCV2014)
• 評価指標
• BLUE (Papineni+, ACL2002)
• METEOR (Banerjee & Lavie,
ACL Workshop2005)
• CIDEr-D (Vedantam+,
CVPR2015)
• SPICE (Fernando+,
ECCV2016)
nLaBERT
• 物体検出:Faster RCNN (Ren+,
NuerIPS2015)
• 𝒇+,&:fc6レイヤーの特徴量
• 𝒇,,&:softmax後のベクトル
• 𝒇",&:Bboxの座標+面積比
• 長さレベル埋め込み
• 1レベル
• 4レベル
• 評価指標
• ROUGE (Lin, ACL
Workshop2004)を追加
• 推論
• 25ステップで生成
実験結果:長さレベル埋め込み
nLv1, 2:どの評価指標でも元のモデルと同等の性能
nLv3, 4:BLUE, CIDEr-Dでは元のモデルより大幅に低下
• n-gramベースの評価指標は長い文章に対して低下する傾向がある
• SPICE, METEORでは低下が見られない
Length-Controllable Image Captioning 11
Table 1. Performance of the length-aware version of AoANet and VLP on MS COCO
Karpathy’s test split. S, C, M and B@N, are short for SPICE, CIDEr-D, METEOR,
and BLEU@N scores, respectively. The original results of AoANet and VLP are ob-
tained from models trained by ourselves with the official codes and settings provided
by the authors. All values are reported as a percentage (%).
Metrics S C M B@4 S C M B@4
Models AoANet VLP
Original Results 21.3 118.4 28.3 36.9 21.2 116.9 28.5 36.5
4-Level
Lv 1 (1-9) 19.6 107.4 25.9 33.1 18.9 103.0 25.2 31.8
Lv 2 (10-14) 21.7 117.6 28.6 35.8 21.4 118.7 28.8 36.0
Lv 3 (15-19) 22.7 79.9 28.7 26.6 22.4 92.5 29.3 28.4
Lv 4 (20-25) 22.7 29.5 27.7 20.2 22.4 40.0 28.5 21.9
5-Level
Lv 1 (1-9) 19.7 108.7 26.0 33.5 18.7 101.0 25.0 30.9
Lv 2 (10-13) 21.6 118.8 28.5 36.1 21.2 117.3 28.4 35.9
Lv 3 (14-17) 22.6 92.9 29.0 28.7 22.3 100.5 29.3 29.9
Lv 4 (18-21) 23.0 48.4 28.2 22.7 22.4 60.4 28.7 24.0
Lv 5 (22-25) 22.9 18.9 27.2 18.8 22.5 28.1 28.1 20.3
実験結果:LaBERT
n長さレベル埋め込み
• なしに比べてLv2では性能が向上している
nSOTAとの比較
• Lv3, 4ではSPICEスコアで上回っている
12 C. Deng et al.
Table 2. Performance of LaBERT on MS COCO Karpathy’s test split. R represents
ROUGE. The results of AoANet and VLP are obtained from their papers.
Metrics S C M R B@1 B@2 B@3 B@4
State-Of-The-Art Models
VLP [53] 21.2 116.9 28.4 - - - - 36.5
AoANet [20] 21.3 119.8 28.4 57.5 77.4 - - 37.2
Single-Level LaBERT
Single Level (1-25) 21.7 116.8 27.9 57.0 77.4 61.0 46.5 35.0
4-Level LaBERT
lvl 1 (1-9) 19.5 101.6 25.4 54.7 72.5 56.3 41.8 30.0
lvl 2 (10-14) 21.8 118.2 28.4 57.4 77.6 61.3 46.9 35.3
lvl 3 (15-19) 22.3 90.5 28.6 53.1 66.8 50.6 37.0 26.8
lvl 4 (20-25) 22.2 39.9 27.7 46.9 56.1 40.9 28.6 19.9
まとめ
n長さレベル埋め込みの提案
• 文章の長さに応じた埋め込みベクトルをword embedding時に加える
• 既存のモデルに対して適応可能
• 生成時に指定した長さレベルの長さの文章を生成可能
• 長い生成文に対しても精度が保たれる
nLaBERTの提案
• 非回帰型モデルによる文章の生成
• 生成文の長さに計算量が比例しない
• 長さレベル埋め込みを用いることで精度の向上
• SOTAと比較して精度の向上

Contenu connexe

Similaire à 文献紹介:Length-Controllable Image Captioning

統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.scalaconfjp
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video UnderstandingToru Tamaki
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Yuto Takei
 
transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~MasayoshiTsutsui
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video InpaintingToru Tamaki
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...Toru Tamaki
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language ModelsToru Tamaki
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜Michiharu Niimi
 
Optimization night 4_dp
Optimization night 4_dpOptimization night 4_dp
Optimization night 4_dpKensuke Otsuki
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)mametter
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 

Similaire à 文献紹介:Length-Controllable Image Captioning (15)

統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
 
Optimization night 4_dp
Optimization night 4_dpOptimization night 4_dp
Optimization night 4_dp
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 

Plus de Toru Tamaki

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense PredictionsToru Tamaki
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understandingToru Tamaki
 

Plus de Toru Tamaki (20)

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
 

文献紹介:Length-Controllable Image Captioning

  • 1. Length-Controllable Image Captioning Chaorui Deng, Ning Ding, Mingkui Tan, and Qi Wu ECCV2020 2022/11/11 仁田智也 (名工大玉木研)
  • 2. 概要 nImage Captioningの生成文の長さを調整する手法の提案 • 既存のモデルに対して適用可能 • 既存のモデルに適用することで同等以上の性能 nImage CaptionigモデルのLaBERTの提案 • 非自己回帰モデル • 計算量が生成する文の長さに比例しない • 生成文の長さの調整を適応可能 2 C. Deng et al. Reference image captions A pizza on a pan sitting on a table. A close up of a pizza in a pan on a table. A pizza sits on a plate on a dark surface. A person sitting at a table where a pizza is sitting. A pizza topped with different toppings is brought to a table. Predicted image captions Rough VLP A pizza sitting on top of a pan on a table. Ours Lv1 A pizza that is sitting on a table. Ours Lv2 A pizza with tomatoes and spinach on a table. Ours Lv3 A pizza with tomatoes cheese and toppings on it sitting on a table. Detailed Ours Lv4 A pizza sitting on top of a pan with a lot of cheese spinach and tomatoes on it.
  • 3. 関連研究 n生成文の制御 • ASG2Caption model (Chen+, CVPR2020) • シーングラフを用いて生成文の多様性を制御 • 多様性の向上 • 精度の低下 • 菊池らの研究 (Kikuchi+, EMNLP2016) • 生成文の長さの制御 • 一部モデルのみに適用可能 • 柔軟性が欠如 n非自己回帰生成モデル • NAT (Gu+, arXiv2017) • 翻訳タスクでの非自己回帰モデル • 計算量が系列長に比例しない
  • 4. 生成文の長さの制御 nアノテーションの文章の長さの範囲で長さレベルを定める • 文章の単語数によって分割 • Ex. [1, 9], [10, 14], [15, 19], [20, 25] • 分割する単語数の基準はデータがある程度均等になるように定める nWord embeddingの際に長さレベルの埋め込み情報を加える • i番目の単語に対する埋め込みベクトル:𝒙!! = 𝒆" + 𝒆#,!! + 𝒆%,& • 𝒆#,!! :単語埋め込み • 𝒆%,&:位置埋め込み • 𝒆":長さレベル埋め込み • 𝒆" = 𝑊" ' 𝑡" • 𝑊" ' ∈ ℝ(×*:学習可能な埋め込み行列 • 𝑡" ∈ ℝ( :長さレベルに対応するワンホットベクトル
  • 5. LaBERT n入力画像のembedding • 入力画像に学習済み物体検出をかける • 𝒇+,&:検出物体iに対応する特徴量ベクトル • 𝒇,,&:検出物体iに対応するクラス確率分布 • 𝒇",&:検出物体iに対応する局所特徴量 • ex. [左上x座標, 左上y座標, 右下x座標, 右下y座標, bboxの面積比] • 𝒙-! = 𝑾+ '𝒇+,& + 𝑾% ' LN 𝒇,,& , LN 𝒇",& + 𝒆&./ • 𝒆&./:埋め込みベクトル Length-Controllable Image Captioning 7 A . . . N× Transformer Blocks [MASK] in a [MASK] [EOS] . . . . . . . . . "#$ "#% "#& "#' "($ "(% "(& "() "(* "(+ person kayak Image type embedding Location embedding Visual embedding Length level embedding Position embedding Word embedding
  • 6. LaBERT nWord embedding • 長さレベル埋め込みを同様に行う • 学習時 • 文章にランダムにマスクをかけてembeddingをする • マスクをかけた部分の単語を推論する Length-Controllable Image Captioning 7 A . . . N× Transformer Blocks [MASK] in a [MASK] [EOS] . . . . . . . . . "#$ "#% "#& "#' "($ "(% "(& "() "(* "(+ person kayak Image type embedding Location embedding Visual embedding Length level embedding Position embedding Word embedding
  • 7. LaBERT n推論時 • 生成文の最大の長さのマスクを入力 • 各単語を推論する • 𝑝& 𝑠& = [𝐸𝑂𝑆] ← 𝛾0"!#"1& 𝑝& 𝑠& = [𝐸𝑂𝑆] , ∀&∈ [𝐿"2#, 𝐿3&/3] • 系列が最後の方になるにつれて[𝐸𝑂𝑆]の確率をあげる • 推論時の各単語のconfidence scoreを以下のように更新する • 𝑐& ← : max ! 𝑝& 𝑠& = 𝑠 i is masked position ,!4567 $ %! !!8! 9 otherwise • 各単語のconfidence scoreが下位n個にマスクをかけてもう一度推論を行う • nはステップが進む毎に減衰させる Length-Controllable Image Captioning 9 Mask-predict-update process Step 1 [MASK] [MASK] [MASK] [MASK] [MASK] [MASK]…..[MASK] [MASK] [MASK] A dog is on the the on a a a a a a a a walking in the sidewalk. A dog laying on the side of a street with a a walking a a walking in the sidewalk. A dog laying on the side of a street with a woman walking on the sidewalk of the street. Step T A dog sitting on the side of a street with a woman walking on the sidewalk in the background.
  • 8. 実験設定 n長さレベル埋め込み • モデル • AoANet (Huang+, ICCV2019) • VLP (Zhou+, AAAI2020) • データセット • MSCOCO (Lin+, ECCV2014) • 評価指標 • BLUE (Papineni+, ACL2002) • METEOR (Banerjee & Lavie, ACL Workshop2005) • CIDEr-D (Vedantam+, CVPR2015) • SPICE (Fernando+, ECCV2016) nLaBERT • 物体検出:Faster RCNN (Ren+, NuerIPS2015) • 𝒇+,&:fc6レイヤーの特徴量 • 𝒇,,&:softmax後のベクトル • 𝒇",&:Bboxの座標+面積比 • 長さレベル埋め込み • 1レベル • 4レベル • 評価指標 • ROUGE (Lin, ACL Workshop2004)を追加 • 推論 • 25ステップで生成
  • 9. 実験結果:長さレベル埋め込み nLv1, 2:どの評価指標でも元のモデルと同等の性能 nLv3, 4:BLUE, CIDEr-Dでは元のモデルより大幅に低下 • n-gramベースの評価指標は長い文章に対して低下する傾向がある • SPICE, METEORでは低下が見られない Length-Controllable Image Captioning 11 Table 1. Performance of the length-aware version of AoANet and VLP on MS COCO Karpathy’s test split. S, C, M and B@N, are short for SPICE, CIDEr-D, METEOR, and BLEU@N scores, respectively. The original results of AoANet and VLP are ob- tained from models trained by ourselves with the official codes and settings provided by the authors. All values are reported as a percentage (%). Metrics S C M B@4 S C M B@4 Models AoANet VLP Original Results 21.3 118.4 28.3 36.9 21.2 116.9 28.5 36.5 4-Level Lv 1 (1-9) 19.6 107.4 25.9 33.1 18.9 103.0 25.2 31.8 Lv 2 (10-14) 21.7 117.6 28.6 35.8 21.4 118.7 28.8 36.0 Lv 3 (15-19) 22.7 79.9 28.7 26.6 22.4 92.5 29.3 28.4 Lv 4 (20-25) 22.7 29.5 27.7 20.2 22.4 40.0 28.5 21.9 5-Level Lv 1 (1-9) 19.7 108.7 26.0 33.5 18.7 101.0 25.0 30.9 Lv 2 (10-13) 21.6 118.8 28.5 36.1 21.2 117.3 28.4 35.9 Lv 3 (14-17) 22.6 92.9 29.0 28.7 22.3 100.5 29.3 29.9 Lv 4 (18-21) 23.0 48.4 28.2 22.7 22.4 60.4 28.7 24.0 Lv 5 (22-25) 22.9 18.9 27.2 18.8 22.5 28.1 28.1 20.3
  • 10. 実験結果:LaBERT n長さレベル埋め込み • なしに比べてLv2では性能が向上している nSOTAとの比較 • Lv3, 4ではSPICEスコアで上回っている 12 C. Deng et al. Table 2. Performance of LaBERT on MS COCO Karpathy’s test split. R represents ROUGE. The results of AoANet and VLP are obtained from their papers. Metrics S C M R B@1 B@2 B@3 B@4 State-Of-The-Art Models VLP [53] 21.2 116.9 28.4 - - - - 36.5 AoANet [20] 21.3 119.8 28.4 57.5 77.4 - - 37.2 Single-Level LaBERT Single Level (1-25) 21.7 116.8 27.9 57.0 77.4 61.0 46.5 35.0 4-Level LaBERT lvl 1 (1-9) 19.5 101.6 25.4 54.7 72.5 56.3 41.8 30.0 lvl 2 (10-14) 21.8 118.2 28.4 57.4 77.6 61.3 46.9 35.3 lvl 3 (15-19) 22.3 90.5 28.6 53.1 66.8 50.6 37.0 26.8 lvl 4 (20-25) 22.2 39.9 27.7 46.9 56.1 40.9 28.6 19.9
  • 11. まとめ n長さレベル埋め込みの提案 • 文章の長さに応じた埋め込みベクトルをword embedding時に加える • 既存のモデルに対して適応可能 • 生成時に指定した長さレベルの長さの文章を生成可能 • 長い生成文に対しても精度が保たれる nLaBERTの提案 • 非回帰型モデルによる文章の生成 • 生成文の長さに計算量が比例しない • 長さレベル埋め込みを用いることで精度の向上 • SOTAと比較して精度の向上