SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Deep Visual-Semantic Alignments
for Generating Image Descriptions
Andrej Karpathy, Li Fei-Fei
Department of Computer Science, Stanford University
CVPR’15 June 8-10
Abstract
入力された画像の各領域に関する説明を自由記述する
• 画像領域と単語の対応を学習
- inter-modal embedding space
✓ 画像領域(CNN)× 文(BRNN)
• 説明文の生成
- 新しいRNN構造の提案
• 実データに適用する
- Flickr8K / Flickr30K / COCO
2
Introduction
人間は画像を一見するだけで説明できる
• コンピュータに理解させようとする先行研究は多い
- 視覚的なカテゴリによるラベリング
✓ 人間がつくるものに比べたら制限的
- 画像説明の生成
✓ 固定されたコンセプトやテンプレに依存
✓ 複雑なシーンに対して短文のみ
3
Introduction
人間は画像を一見するだけで説明できる
• コンピュータに理解させようとする先行研究は多い
- 視覚的なカテゴリによるラベリング
✓ 人間がつくるものに比べたら制限的
- 画像説明の生成
✓ 固定されたコンセプトやテンプレに依存
✓ 複雑なシーンに対して短文のみ
4
いずれの先行研究も不必要な制限をしてしまっている
Challenge
画像領域に対する複雑な自由記述の生成
• 画像と言語を同時に扱えるモデルの提案
- 固定されたテンプレやルール,

カテゴリ,学習データに依存しない
• 実際のデータを用いて生成できること
- 多くの説明文は画像のどこを示しているかわからない
5
画像のどこかしらを示す弱いラベルとして文章を扱う
“trampolines are fun way to exercise.”
Contributions
文章と画像の領域における潜在的な関係性を推定する

deep neural network modelを提案
• 2つのモーダリティを組み込み空間とstructued objectiveを通
して連携させる
multimodal RNNの提案
• 入力を画像にすると,テキストで説明文を出力する
6
Related Works
Dense image annotation
• Barnardら,Socherら:単語と画像の対応づけ
• 画像のシーンカテゴリを推定
• 指定されたキーワードしか使われていない
7
Related Works
Generating textual description
• シーンレベルで文章をアノテーション
• 情報探索問題
- 文章と一致している画像を発見する
- 間違ってアノテーションされてしまっているペアを発見
- 大量の学習データ必要だったり非線形
• 固定テンプレを用いた文章生成
- 文法的には正しいが,出力の種類が制限される
8
Related Works
Generating textual description
• 文法生成による文章
- SrivastavaらのDBM
- フレーズは増やせていない
• 一文全ての生成
- Kirosらのlog-bilinearモデル
- 固定ウインドウサイズで確率的ではない
9
Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが,画像には未使用
10
Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが,画像には未使用
11
ベースラインとして用いる
Approach: Overview
1:複数の処理を行って,画像の一部とフレーズを対応付ける
2:対応付けたものを学習してフレーズを新たに生成する
• multimodal RNNで学習
12
Approach:画像の表現
R-CNNによる画像の領域抽出
• Pre-training:ImageNet
• Fine-tuning:ImageNet Detection Challenge(200クラス)
• 検出された上位19個の領域+画像全体(20種類)
- Karpathyらの研究と比較のため
13
Approach:画像の表現
Region Convolutional Neural Network
• 各領域内のピクセルIbをベクトルvで表現する
- CNN(Ib):Ib → 4096次元ベクトル(activations)
- θc:6000万のパラメータ
- アーキテクチャ:Krizhevskyらのものに類似
- Wm:h × 4096次元
- h:multimodal embedding spaceのサイズ(1000 < h < 1600)
14
Approach:画像の表現
Region Convolutional Neural Network
• 各領域内のピクセルIbをベクトルvで表現する
- CNN(Ib):Ib → 4096次元ベクトル(activations)
- θc:6000万のパラメータ
- アーキテクチャ:Krizhevskyらのものに類似
- Wm:h × 4096次元
- h:multimodal embedding spaceのサイズ(1000 < h < 1600)
15
1つの画像は20個のh次元ベクトルの集合で表現される
Approach:文章の表現
フレーズを単語毎に切り分けて素性ベクトルで表す
• 単語もh次元ベクトルで表現されるべき
• 単語毎にmultimodal embedding spaceに入れること
- 出現の順番や文脈を無視してる
• bigramや依存関係ツリー
- コンテクストウインドウサイズやツリーパーサーが必要
16
Approach:文章の表現
フレーズを単語毎に切り分けて素性ベクトルで表す
• 単語もh次元ベクトルで表現されるべき
• 単語毎にmultimodal embedding spaceに入れること
- 出現の順番や文脈を無視してる
• bigramや依存関係ツリー
- コンテクストウインドウサイズやツリーパーサーが必要
17
bidirectional recurrent neural networkの提案
Approach:文章の表現
Bidirectional recurrent neural network
• 各単語をh次元ベクトルで表現
- t:文章で出てきた単語のインデックス
- Ⅱt:t番目の単語の1-of-Kベクトル
- Ww:word2vecの重み(固定)
- h
b
t:右から左への処理時の隠れ層
- h
f
t:左から右への処理時の隠れ層
- St:単語自体と周囲の文脈両方を表現
- We,Wf,Wb,Wd,be,bf,bd:パラメータ
• 隠れ層:300-600次元
• 活性化関数:rectified Linear Unit
18
Approach:画像と文章の対応付け
画像と文章をmultimodal embedding spaceに写像
• 画像と単語の対応具合を示す指標:image-sentence score
• Karpathyら:内積値が高いほうど類似している
- gl:文章の部分集合
- gk:画像の領域集合
• マルチインスタンス学習の要領
19
Approach:画像と文章の対応付け
Image-Sentence Scoreの単純化
• 内積値が最も大きいところが対応している
※ちょっとよくわからなかった
20
Approach:フレーズの画像への対応付け
単語ではなく,フレーズを画像に対応付けさせる
• は単語がある画像領域iに対応している非正規化対数確率
• ナイーブな手法
- 各領域におけるハイスコアな単語を集める
✓ 単語が分散してしまう
21
Approach:フレーズの画像への対応付け
単語ではなく,フレーズを画像に対応付けさせる
• は単語がある画像領域iに対応している非正規化対数確率
• ナイーブな手法
- 各領域におけるハイスコアな単語を集める
✓ 単語が分散してしまう
22
マルコフランダムフィールドを適用する
Approach:フレーズの画像への対応付け
Markov Random Field
• 隣接する単語の相互作用により同領域になるようにする
• N個の単語が含まれる文章×M個の領域が含まれる画像
23
- 隠れ変数:aj ∈ {1..M}
- j:1…N
- β:単語の結びつきを決めるハイパーパラメータ
✓ β=0:1個の単語が領域に対応する
✓ βが大きい:一文全てが領域に対応する
Approach:フレーズの画像への対応付け
Markov Random Field
• 隣接する単語の相互作用により同領域になるようにする
• N個の単語が含まれる文章×M個の領域が含まれる画像
24
- 隠れ変数:aj ∈ {1..M}
- j:1…N
- β:単語の結びつきを決めるハイパーパラメータ
✓ β=0:1個の単語が領域に対応する
✓ βが大きい:一文全てが領域に対応する
出力:フレーズでアノテーションされた画像領域
Approach:フレーズの予測
multimodal Recurrent Neural Network
• 入力画像から可変長のフレーズを生成する
- y:語彙の単語次元数+1次元(ENDトークン分)
- bv:単語生成毎に画像コンテクストを保持させる必要をなくすため
• 学習時:h0=0, x1=STARTトークン(the), y1=最初の単語
• テスト時:bvを計算,h0=0, x1=theでフォワーディング
25
Optimization
確率的勾配降下法(ミニバッチ法)
• 100種類の画像文章ペア
• momentum = 0.9
• 交差検定で学習率とweight decayを学習
• dropout regularizationをrecurrent層以外に適用
• RMSpropも適用
26
Experiments:Overview
データセット
• Flickr2種類(Flickr8K, Flickr30K)+COCO
- 8000, 31000, 123000種類の画像
✓ それぞれ5種類の説明文付き(via Amazon Mechanical Turk)
- Flickrは1000種類ずつ検証,テストに使用,残りは学習に使用
- COCOは5000種類ずつ検証,テストに使用
前処理
• 全てを小文字に変換,英数字以外の文字と”an”,”a”,”the”を除去
• 20000単語存在
27
Experiments: Overview
画像とフレーズの対応付けの評価
• ランキングによるベースラインとの比較評価
- 画像からフレーズを検索
- フレーズから画像を検索
画像領域に対するフレーズ生成の評価
• BLEUによるベースラインとの比較評価
- 正解データのn-gramsの出現割合で評価
28
Experiments: 画像とフレーズの対応付け
image-sentence score Sklでランキング
• Recall, Median Rankによる評価
29
Experiments: 画像とフレーズの対応付け
image-sentence score Sklでランキング
• Recall, Median Rankによる評価
30
Experiments: 画像の説明
multimodalRNNの構造を評価
31
Experiments: 画像の説明
一部(region)の評価
32
Conclusion
画像領域に対するフレーズの自動生成手法の提案
• 画像と文章を同一空間への写像手法
- ランキングにおいてstate-of-artな結果を得た
• 入力画像からフレーズを生成するmultimodal RNN
- 画像全体,領域別において良い結果を得た
Limitation
• 固定された解像度の画像しか文章を提案できない
• 足し算しかRNNは隠れ層に表現できない
33
感想
deep learningで注目されてる手法を組合せた応用例
• おそらくテクニックがいっぱい隠れている
• コードも公開されているので,実行してみる
• Googleはやはりいろいろやってそう
34

Contenu connexe

Tendances

Multi reference training with pseudo-references for neural translation and te...
Multi reference training with pseudo-references for neural translation and te...Multi reference training with pseudo-references for neural translation and te...
Multi reference training with pseudo-references for neural translation and te...ryoma yoshimura
 
20160611 pymc3-latent
20160611 pymc3-latent20160611 pymc3-latent
20160611 pymc3-latentTaku Yoshioka
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
 
Dynamic filters in graph convolutional network
Dynamic filters in graph convolutional networkDynamic filters in graph convolutional network
Dynamic filters in graph convolutional networkshima o
 
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...Takashi YAMAMURA
 
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)Deep Learning JP
 
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph NetworksDeep Learning JP
 

Tendances (7)

Multi reference training with pseudo-references for neural translation and te...
Multi reference training with pseudo-references for neural translation and te...Multi reference training with pseudo-references for neural translation and te...
Multi reference training with pseudo-references for neural translation and te...
 
20160611 pymc3-latent
20160611 pymc3-latent20160611 pymc3-latent
20160611 pymc3-latent
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
Dynamic filters in graph convolutional network
Dynamic filters in graph convolutional networkDynamic filters in graph convolutional network
Dynamic filters in graph convolutional network
 
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
 
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)
[DL輪読会]Adversarial Text Generation via Feature-Mover's Distance (NIPS 2018)
 
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
 

Plus de Makoto Kawano

情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」
情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」
情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」Makoto Kawano
 
Road Marking Blur Detection with Drive Recorder
Road Marking Blur Detection with Drive RecorderRoad Marking Blur Detection with Drive Recorder
Road Marking Blur Detection with Drive RecorderMakoto Kawano
 
DLhacks paperreading_20150902
DLhacks paperreading_20150902DLhacks paperreading_20150902
DLhacks paperreading_20150902Makoto Kawano
 
Pythonデータ分析 第4回勉強会資料 12章
Pythonデータ分析 第4回勉強会資料 12章Pythonデータ分析 第4回勉強会資料 12章
Pythonデータ分析 第4回勉強会資料 12章Makoto Kawano
 
Pythonデータ分析 第3回勉強会資料 8章
Pythonデータ分析 第3回勉強会資料 8章 Pythonデータ分析 第3回勉強会資料 8章
Pythonデータ分析 第3回勉強会資料 8章 Makoto Kawano
 
Pythonデータ分析 第4回勉強会資料 10章
Pythonデータ分析 第4回勉強会資料 10章Pythonデータ分析 第4回勉強会資料 10章
Pythonデータ分析 第4回勉強会資料 10章Makoto Kawano
 
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章Makoto Kawano
 
Python for Data Anaysis第2回勉強会4,5章
Python for Data Anaysis第2回勉強会4,5章Python for Data Anaysis第2回勉強会4,5章
Python for Data Anaysis第2回勉強会4,5章Makoto Kawano
 
Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Makoto Kawano
 
NTT研究所インターン 感想
NTT研究所インターン 感想NTT研究所インターン 感想
NTT研究所インターン 感想Makoto Kawano
 

Plus de Makoto Kawano (11)

情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」
情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」
情報科学若手の会発表資料「Node-REDフローの分散処理化による次世代の都市システム」
 
Road Marking Blur Detection with Drive Recorder
Road Marking Blur Detection with Drive RecorderRoad Marking Blur Detection with Drive Recorder
Road Marking Blur Detection with Drive Recorder
 
DLhacks paperreading_20150902
DLhacks paperreading_20150902DLhacks paperreading_20150902
DLhacks paperreading_20150902
 
Pythonデータ分析 第4回勉強会資料 12章
Pythonデータ分析 第4回勉強会資料 12章Pythonデータ分析 第4回勉強会資料 12章
Pythonデータ分析 第4回勉強会資料 12章
 
Pythonデータ分析 第3回勉強会資料 8章
Pythonデータ分析 第3回勉強会資料 8章 Pythonデータ分析 第3回勉強会資料 8章
Pythonデータ分析 第3回勉強会資料 8章
 
Pythonデータ分析 第4回勉強会資料 10章
Pythonデータ分析 第4回勉強会資料 10章Pythonデータ分析 第4回勉強会資料 10章
Pythonデータ分析 第4回勉強会資料 10章
 
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章
 
Python for Data Anaysis第2回勉強会4,5章
Python for Data Anaysis第2回勉強会4,5章Python for Data Anaysis第2回勉強会4,5章
Python for Data Anaysis第2回勉強会4,5章
 
Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)
 
NTT研究所インターン 感想
NTT研究所インターン 感想NTT研究所インターン 感想
NTT研究所インターン 感想
 
T univ
T univT univ
T univ
 

Dernier

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Dernier (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Dl hacks paperreading_20150527