Dl hacks paperreading_20150527

Deep Visual-Semantic Alignments
for Generating Image Descriptions
Andrej Karpathy, Li Fei-Fei
Department of Computer Science, Stanford University
CVPR’15 June 8-10

Abstract
入力された画像の各領域に関する説明を自由記述する
• 画像領域と単語の対応を学習
- inter-modal embedding space
✓ 画像領域（CNN）× 文（BRNN）
• 説明文の生成
- 新しいRNN構造の提案
• 実データに適用する
- Flickr8K / Flickr30K / COCO
2

Introduction
人間は画像を一見するだけで説明できる
• コンピュータに理解させようとする先行研究は多い
- 視覚的なカテゴリによるラベリング
✓ 人間がつくるものに比べたら制限的
- 画像説明の生成
✓ 固定されたコンセプトやテンプレに依存
✓ 複雑なシーンに対して短文のみ
3

Introduction
人間は画像を一見するだけで説明できる
• コンピュータに理解させようとする先行研究は多い
- 視覚的なカテゴリによるラベリング
✓ 人間がつくるものに比べたら制限的
- 画像説明の生成
✓ 固定されたコンセプトやテンプレに依存
✓ 複雑なシーンに対して短文のみ
4
いずれの先行研究も不必要な制限をしてしまっている

Challenge
画像領域に対する複雑な自由記述の生成
• 画像と言語を同時に扱えるモデルの提案
- 固定されたテンプレやルール， 
カテゴリ，学習データに依存しない
• 実際のデータを用いて生成できること
- 多くの説明文は画像のどこを示しているかわからない
5
画像のどこかしらを示す弱いラベルとして文章を扱う
“trampolines are fun way to exercise.”

Contributions
文章と画像の領域における潜在的な関係性を推定する 
deep neural network modelを提案
• 2つのモーダリティを組み込み空間とstructued objectiveを通
して連携させる
multimodal RNNの提案
• 入力を画像にすると，テキストで説明文を出力する
6

Related Works
Dense image annotation
• Barnardら，Socherら：単語と画像の対応づけ
• 画像のシーンカテゴリを推定
• 指定されたキーワードしか使われていない
7

Related Works
Generating textual description
• シーンレベルで文章をアノテーション
• 情報探索問題
- 文章と一致している画像を発見する
- 間違ってアノテーションされてしまっているペアを発見
- 大量の学習データ必要だったり非線形
• 固定テンプレを用いた文章生成
- 文法的には正しいが，出力の種類が制限される
8

Related Works
Generating textual description
• 文法生成による文章
- SrivastavaらのDBM
- フレーズは増やせていない
• 一文全ての生成
- Kirosらのlog-bilinearモデル
- 固定ウインドウサイズで確率的ではない
9

Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが，画像には未使用
10

Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが，画像には未使用
11
ベースラインとして用いる

Approach: Overview
１：複数の処理を行って，画像の一部とフレーズを対応付ける
２：対応付けたものを学習してフレーズを新たに生成する
• multimodal RNNで学習
12

Approach：画像の表現
R-CNNによる画像の領域抽出
• Pre-training：ImageNet
• Fine-tuning：ImageNet Detection Challenge（200クラス）
• 検出された上位19個の領域＋画像全体（20種類）
- Karpathyらの研究と比較のため
13

Region Convolutional Neural Network
• 各領域内のピクセルIbをベクトルvで表現する
- CNN(Ib)：Ib → 4096次元ベクトル（activations）
- θc：6000万のパラメータ
- アーキテクチャ：Krizhevskyらのものに類似
- Wm：h × 4096次元
- h：multimodal embedding spaceのサイズ（1000 < h < 1600）
14

Region Convolutional Neural Network
• 各領域内のピクセルIbをベクトルvで表現する
- CNN(Ib)：Ib → 4096次元ベクトル（activations）
- θc：6000万のパラメータ
- アーキテクチャ：Krizhevskyらのものに類似
- Wm：h × 4096次元
- h：multimodal embedding spaceのサイズ（1000 < h < 1600）
15
１つの画像は20個のh次元ベクトルの集合で表現される

Approach：文章の表現
フレーズを単語毎に切り分けて素性ベクトルで表す
• 単語もh次元ベクトルで表現されるべき
• 単語毎にmultimodal embedding spaceに入れること
- 出現の順番や文脈を無視してる
• bigramや依存関係ツリー
- コンテクストウインドウサイズやツリーパーサーが必要
16

フレーズを単語毎に切り分けて素性ベクトルで表す
• 単語もh次元ベクトルで表現されるべき
• 単語毎にmultimodal embedding spaceに入れること
- 出現の順番や文脈を無視してる
• bigramや依存関係ツリー
- コンテクストウインドウサイズやツリーパーサーが必要
17
bidirectional recurrent neural networkの提案

Bidirectional recurrent neural network
• 各単語をh次元ベクトルで表現
- t：文章で出てきた単語のインデックス
- Ⅱt：t番目の単語の1-of-Kベクトル
- Ww：word2vecの重み（固定）
- h
b
t：右から左への処理時の隠れ層
- h
f
t：左から右への処理時の隠れ層
- St：単語自体と周囲の文脈両方を表現
- We,Wf,Wb,Wd,be,bf,bd：パラメータ
• 隠れ層：300-600次元
• 活性化関数：rectiﬁed Linear Unit
18

Approach：画像と文章の対応付け
画像と文章をmultimodal embedding spaceに写像
• 画像と単語の対応具合を示す指標：image-sentence score
• Karpathyら：内積値が高いほうど類似している
- gl：文章の部分集合
- gk：画像の領域集合
• マルチインスタンス学習の要領
19

Approach：画像と文章の対応付け
Image-Sentence Scoreの単純化
• 内積値が最も大きいところが対応している
※ちょっとよくわからなかった
20

Approach：フレーズの画像への対応付け
単語ではなく，フレーズを画像に対応付けさせる
• は単語がある画像領域iに対応している非正規化対数確率
• ナイーブな手法
- 各領域におけるハイスコアな単語を集める
✓ 単語が分散してしまう
21

単語ではなく，フレーズを画像に対応付けさせる
• は単語がある画像領域iに対応している非正規化対数確率
• ナイーブな手法
- 各領域におけるハイスコアな単語を集める
✓ 単語が分散してしまう
22
マルコフランダムフィールドを適用する

Markov Random Field
• 隣接する単語の相互作用により同領域になるようにする
• N個の単語が含まれる文章×M個の領域が含まれる画像
23
- 隠れ変数：aj ∈ {1..M}
- j：1…N
- β：単語の結びつきを決めるハイパーパラメータ
✓ β=0：1個の単語が領域に対応する
✓ βが大きい：一文全てが領域に対応する

Markov Random Field
• 隣接する単語の相互作用により同領域になるようにする
• N個の単語が含まれる文章×M個の領域が含まれる画像
24
- 隠れ変数：aj ∈ {1..M}
- j：1…N
- β：単語の結びつきを決めるハイパーパラメータ
✓ β=0：1個の単語が領域に対応する
✓ βが大きい：一文全てが領域に対応する
出力：フレーズでアノテーションされた画像領域

Approach：フレーズの予測
multimodal Recurrent Neural Network
• 入力画像から可変長のフレーズを生成する
- y：語彙の単語次元数＋1次元（ENDトークン分）
- bv：単語生成毎に画像コンテクストを保持させる必要をなくすため
• 学習時：h0=0, x1=STARTトークン(the), y1=最初の単語
• テスト時：bvを計算，h0=0, x1=theでフォワーディング
25

Optimization
確率的勾配降下法（ミニバッチ法）
• 100種類の画像文章ペア
• momentum = 0.9
• 交差検定で学習率とweight decayを学習
• dropout regularizationをrecurrent層以外に適用
• RMSpropも適用
26

Experiments：Overview
データセット
• Flickr2種類(Flickr8K, Flickr30K)＋COCO
- 8000, 31000, 123000種類の画像
✓ それぞれ5種類の説明文付き（via Amazon Mechanical Turk）
- Flickrは1000種類ずつ検証，テストに使用，残りは学習に使用
- COCOは5000種類ずつ検証，テストに使用
前処理
• 全てを小文字に変換，英数字以外の文字と”an”,”a”,”the”を除去
• 20000単語存在
27

Experiments: Overview
画像とフレーズの対応付けの評価
• ランキングによるベースラインとの比較評価
- 画像からフレーズを検索
- フレーズから画像を検索
画像領域に対するフレーズ生成の評価
• BLEUによるベースラインとの比較評価
- 正解データのn-gramsの出現割合で評価
28

Experiments: 画像とフレーズの対応付け
image-sentence score Sklでランキング
• Recall, Median Rankによる評価
29

Experiments: 画像とフレーズの対応付け
image-sentence score Sklでランキング
• Recall, Median Rankによる評価
30

Experiments: 画像の説明
multimodalRNNの構造を評価
31

Experiments: 画像の説明
一部(region)の評価
32

Conclusion
画像領域に対するフレーズの自動生成手法の提案
• 画像と文章を同一空間への写像手法
- ランキングにおいてstate-of-artな結果を得た
• 入力画像からフレーズを生成するmultimodal RNN
- 画像全体，領域別において良い結果を得た
Limitation
• 固定された解像度の画像しか文章を提案できない
• 足し算しかRNNは隠れ層に表現できない
33

感想
deep learningで注目されてる手法を組合せた応用例
• おそらくテクニックがいっぱい隠れている
• コードも公開されているので，実行してみる
• Googleはやはりいろいろやってそう
34

Dl hacks paperreading_20150527

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

Plus de Makoto Kawano

Plus de Makoto Kawano (11)

Dernier

Dernier (7)

Dl hacks paperreading_20150527