SlideShare une entreprise Scribd logo
1  sur  37
CVPR 2017 読み会
Self-Critical Sequence Training
for Image Captioning
牛久 祥孝
losnuevetoros
自己紹介
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
大学の夏
教員が大学院入試や学会で忙しいのはともかく
大学院生にとっての夏:インターン
弊専攻の学生のよくある進路
• B4の夏は大学院入試を受験
• M1の夏にインターン
• M2で就職活動
– 主に大手メーカーやIT系
– ベンチャー?博士進学?
• 典型的な行動を集団でトレースしてる?
– 途中までは皆似たような進路
– 後々典型的な行動が消失したら…?
– 中長期的なキャリアプランを考えた方が…
画像キャプション生成のよくある手法
• CNNで画像特徴量を抽出
• LSTMにつっこむ
• 生成中の単語列から次の
単語を推定
• 局所的な単語列をトレースしてる?
– 途中までは皆似たようなキャプション
– 学習した単語列から逸脱しだすと…?
– 中長期的な単語列の評価を最適化した方が…
本日の論文
強化学習を用いた画像キャプション生成
• 中長期的な系列生成モデルの最適化が目的
• 強化学習+キャプションはこの論文が初ではない
• デファクトスタンダードとなりつつあるので、
この論文を中心に紹介
ディープ某なのでとりあえずネットワークの
図を出しておけばいいだろう…
本日の論文にあるネットワークの図
わからん
本日の論文にあるネットワークの図
このスライドでは
• 新たな潮流:強化学習×系列生成
– 本日の論文をピボットとして解説
• 3つの問題点が克服されつつある
– Exposure bias → 強化学習
– Non-differentiable task metric → policy gradient
– Reward variance → self-critical sequence training
(本論文の貢献)
• 実験結果から…
– 精度として state-of-the-art
– おかしな画像にもキャプションを生成できる
その前に:
キャプション生成のおさらい
通常のキャプション生成手法
Google NIC [Vinyals+, CVPR 2015]
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM生成モデル [Sutskever+, NIPS 2014]
を直列させて文生成
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
注視モデルの利用 [Xu+, ICML 2015]
• 画像認識と自然言語処理の融合
– 各単語の推定でどの領域を注目すべきかを算出
– 画像+キャプションから注視モデルも学習!
生成されたキャプションの評価方法
機械翻訳では…
• テスト文に複数の参照訳が付随(通常5文)
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to i
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例
定量評価指標
• Precisionに基づく評価
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和
定量評価指標
• Recallに基づく評価
– 参照キャプション中のn-gramがシステムが、出
力したキャプション中に含まれる割合
– Rouge [Lin, 2004]
• METEOR [Elliott+Keller, EMNLP 2013]
– RecallとPrecision両方を重視
定量評価指標
• CIDEr [Vedantam+, CVPR 2015]
– METEORを参考に設計
– 画像キャプション生成の評価用に考案
TF-IDF(実はNISTとよく似ている)
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均(F値)
3つの問題点
問題点1: Exposure bias
通常のRNNによる系列生成モデル学習では…
• 学習時:Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時:Free running
– 入力は𝑡 − 1番目までで
自信が推定したデータ
テスト時の生成系列が学習時から外れだすと
エラーが蓄積し続ける
Cf. キャリアパスが人と違ってくると困りだす
既存の解決アプローチ
• Scheduled sampling [Bengio+, NIPS 2015]
– 毎回コイントスして
• 教師系列から次を推定
• 生成中の系列から次を推定
のどちらかを選ぶ
– 次第に生成中の系列のみを選ぶスケジュール
• Professor forcing [Lamb+, NIPS 2016]
– RNNの隠れ変数の
• Teacher forcing後
• Free runnning後
を近づける敵対的学習
– ドメイン適応の一種
本論文の解決策: 強化学習
• 通常のRNN:Teacher forcing
– 𝑡番目単語の Cross entropy を最小化
→生成したキャプションを直接評価するべきでは
– 評価指標を報酬とする強化学習の導入
• 評価指標の直接最適化
– 機械翻訳ではディープ以前からある [Och, ACL 2003]
state
RNNの状態変数
action
次の単語の推定
reward
評価指標
environment
画像特徴と生成中のキャプション
問題点2: Non-differentiable task metric
• 損失関数は期待報酬の最大化
• 実用的にはミニバッチの各画像で生成した
キャプションの評価指標で近似
• よし、報酬を𝜃で偏微分…できないぞ?
学習パラメータ𝜃に
よる損失関数
𝜃による方策 生成中の単語列
(キャプション)
報酬
Policy Gradient by REINFORCE
• REINFORCE [Williams, 1992]
– 実は報酬の勾配の期待値は
確率の(対数の)偏微分と報酬の積の期待値
– 先ほどと同様に、ミニバッチの画像の報酬から
近似できる
– 適当なベースライン𝑏を導入してもよい
問題点3: Reward variance
• ここまでの話は既存研究でもやっている
cf. MIXER [Ranzato+, ICLR 2016]
• ただしこのままでは報酬 の分散が大
→学習が不安定
SCST: Self-critical sequence training
• メインアイディア:
現時点のパラメータでテスト画像に生成し
た最良キャプション の評価 を使用
• Self-critical sequence = を閾値として
正負が逆転
– より良いキャプションが増え
– より劣るキャプションが減る
定量的・定性的な実験結果
定量的な実験結果
• データセット:MSCOCO
– 約10万枚の画像に5つずつキャプションが付与
• CIDErを報酬として学習
– まずCross Entropyで学習→CIDErで追加学習
• 表が8つほどあるが…
結論:投稿時には本論文がstate-of-the-art
[Yao+, arXiv 2016]
定性的な実験結果
• 単にベンチマークでちょっと勝っただけ?
– MSCOCOにはデータセットとして偏りがある
• Objects out-of-context (OOOC) [Choi+, 2012]
– 物体と背景の間には大きな相関がある
→物体を認識している?
背景を認識している?
– OOOC:
物体と背景が大きく
異なるデータセット
MSCOCOで学習してOOOCを記述できるか?
Cross Entropy のみでキャプション生成を学習した場合
A blue of a building with a blue umbrella on it
SCST でキャプション生成を学習した場合
A blue boat is sitting on the side of a building
ちなみにMSCOCOのテストデータだと
Cross Entropy
A white bird flying over a body of water
SCST
A white bird flying over a body of water
その他のOOOCで生成した例
Cross Entropy
A person is holding a small animal in their hand
SCST
A person holding a giraffe in a field
Cross Entropy
A man in a red shirt standing in front of a green field
SCST
A man standing in front of a street with a television
Cross Entropy
A red car parked on the side of a body of water
SCST
A red car is in the water with a city
まとめとして再掲
• 新たな潮流:強化学習×系列生成
– 本日の論文をピボットとして解説
• 3つの問題点が克服されつつある
– Exposure bias → 強化学習
– Non-differentiable task metric → policy gradient
– Reward variance → self-critical sequence training
(本論文の貢献)
• 実験結果から…
– 精度として state-of-the-art
– おかしな画像にもキャプションを生成できる
まとめとして再掲
• 新たな潮流:強化学習×系列生成
– 本日の論文をピボットとして解説
• 3つの問題点が克服されつつある
– Exposure bias → 強化学習
– Non-differentiable task metric → policy gradient
– Reward variance → self-critical sequence training
(本論文の貢献)
• 実験結果から…
– 精度として state-of-the-art
– おかしな画像にもキャプションを生成できる
実はその後…
既に更なるstate-of-the-artが出現
• 7月下旬以降で記録更新が相次ぐ
• CVPRオーラルセッションでも言及
• Policy gradientはより上位の手法でも利用
されていると思われる
• ICCVにアクセプトされていたら読むかも…?
本日の論文
最後に
関東の夏が暑すぎてCVの事を考えられない?
ぜひご参加ご検討ください!特に若手プログラムへ
https://sites.google.com/view/miru2018sapporo/

Contenu connexe

Tendances

Tendances (20)

Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 

Similaire à Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)

強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
VOYAGE GROUP
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
Kenji Tomita
 

Similaire à Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会) (20)

Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
 
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
ビジネス系大学の学生が Monacaを使って スマホアプリ制作プロジェクトを やりきった
ビジネス系大学の学生がMonacaを使ってスマホアプリ制作プロジェクトをやりきったビジネス系大学の学生がMonacaを使ってスマホアプリ制作プロジェクトをやりきった
ビジネス系大学の学生が Monacaを使って スマホアプリ制作プロジェクトを やりきった
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
"マナビト"広告主向け 実践リスティング広告講座
"マナビト"広告主向け 実践リスティング広告講座"マナビト"広告主向け 実践リスティング広告講座
"マナビト"広告主向け 実践リスティング広告講座
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
 
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会) CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
 

Plus de Yoshitaka Ushiku

Plus de Yoshitaka Ushiku (18)

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)