1. Deep Visual-Semantic Alignments
for Generating Image Descriptions
Andrej Karpathy, Li Fei-Fei
Department of Computer Science, Stanford University
CVPR’15 June 8-10
9. Related Works
Generating textual description
• 文法生成による文章
- SrivastavaらのDBM
- フレーズは増やせていない
• 一文全ての生成
- Kirosらのlog-bilinearモデル
- 固定ウインドウサイズで確率的ではない
9
10. Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが,画像には未使用
10
11. Related Works
Grounding natural language in images
• マルコフランダムフィールド
• 連結言語認識モデル
• Karpathyらの依存関係ツリー
Neural networks in visual and language domains
• 畳み込みニューラルネット
• RNNは文章に使われているが,画像には未使用
11
ベースラインとして用いる