7. 画像キャプション生成
Group of people sitting
at a table with a dinner.
Tourists are standing on
the middle of a flat desert.
[Ushiku+, ICCV 2015]
8. 動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]
9. 他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln
fur Autofahrer. (独語)
A pole with two lights
for drivers. (英語)
[Hitschler+, ACL 2016]
10. キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
16. 再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
17. 再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
18. 再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
19. 再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
35. 深層学習によるend-to-endな学習
• LRCN
[Donahue+, CVPR 2015]
– CNN+RNN
• 動作認識
• 画像/動画
キャプション生成
• Video to Text
[Venugopalan+, ICCV 2015]
– CNN+RNN
• RGB画像で物体を
• オプティカルフローで
動作を
認識→キャプション生成
36. 動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]
37. 動画キャプション生成
A boat is floating on the water near a mountain.
And a man riding a wave on top of a surfboard.
Then he on the surfboard in the water.
[Shin+, ICIP 2016]
49. 入力:言語Aのキャプション+画像
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
– 最初に候補翻訳を複数生成(画像には非依存)
– 類似画像に付随する言語Bのキャプションを
利用して翻訳候補から出力を選択
Eine Person in
einem Anzug
und Krawatte
und einem Rock.
(独語)
画像を見ない場合の翻訳
A person in a suit and tie
and a rock.
画像を利用した場合の翻訳
A person in a suit and tie
and a skirt.
53. VQA: Visual Question Answering
• ビジュアル質問応答を分野として確立
– ベンチマークデータセットの提供
– ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa.org/
– 国際コンペティションも開催
[Antol+, ICCV 2015]
What color are her eyes?
What is the mustache made of?
58. VQA Challenge
コンペティション参加チームの解答例から
Q: Why is there snow on one
side of the stream and clear
grass on the other?
GT A: shade
Machine A: yes
Q: Is the hydrant painted a new
color?
GT A: yes
Machine A: no
69. キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
70. キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
鳥/花に特化したデータセットでの結果
→一般的な画像を生成するにはより一層のブレイクスルーが必要
71. まとめ
• Deep Learning による視覚・言語融合を俯瞰
1. 画像キャプション生成
2. 動画キャプション生成
3. 言語横断
4. 画像に関する質問への応答
5. キャプションからの画像生成
• Deep Learning の貢献
– 上記研究課題自体は Deep Learning 以前も存在
– 画像、動画、自然言語処理技術の共通化
– 認識と生成の精緻化
視覚×言語の新たなステージへ