Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

Latent Classifier Generative Adversarial Nets
による動詞のない命令文理解
国立研究開発法人情報通信研究機構
杉浦孔明，河井恒

背景：生活支援ロボットに対し、短い文で命令できれば
便利である
• すべての生活支援ニーズを、家族や介助犬が担当できる訳ではない
– 介助犬の育成には2年・300万円かかるが、普及率は0.5%
• 今回研究として切り出した問題
– 動作タスク成功率を最大化する言語理解
https://www.toyota.com/usa/toyota-effect/romy-robot.html
音声（言語）
を使った場合
はどんな問題
があるの？
候補が少ないならGUIで
いいけど、多いなら音声
のほうが早いのでは？

問題設定：
物体操作命令を対象とした状況依存言語理解
• 何が難しいか？
– 不完全情報
– シンボルグラウンディング
Instruction: “Bottle, please”
Name: bottle
Situation: An almost empty plastic
water bottle. The water bottle on the
desk.
ユーザの意図
“Bring the plastic bottle
on the desk to me, please”

本研究では、物体認識[Redmon+ 15]、image-to-text[Vinyals+ 14]、
音声対話[Sugiura+ 15]は扱わず、言語理解のみを扱う
「カウンターの上に座っている
マイクロ波オーブン」
x2
音声対話
物体認識

関連研究: GANとLAC-GANの違いは、（Human-readableな
データではなく）「潜在表現」を大量生成させること
分野例
状況依存言語理解 • 物体操作対話 [Iwahashi & Sugiura+ 10]
• 移動指示に関するSLU[Kollar+ 10]
Generative
Adversarial Nets
(GAN)
• GAN [Goodfellow+ 14]：Fakeデータを生成する
GeneratorとReal/Fakeデータを判別するDiscriminator
の敵対的学習
• Conditional GAN [Mirza+ 14], InfoGAN [Chen+ 16]
GAN-based
classification
• AC-GAN [Odena+ 16]：Discriminatorの出力にクラス
ラベルを追加
• CatGAN [Springenberg 15], cGAN classifier [Shen+ 17]
LAC-GANの着想
• タスクが生成でなく分類であるなら、GeneratorにHuman-
readableデータ（画像、言語等）を生成させなくてもよい

Generative Adversarial Nets (GAN) [Goodfellow+ 14]:
人間が見るための「擬似データ」を、Gが生成
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]InfoGAN [Chen+ 16]
乱数

提案手法：Latent Classifier Generative Adversarial Nets
Data augmentationのための「潜在表現」を、Gが生成
PA ReLU
BN
ReLU
BN
ReLU softmax
BN
ReLU
BN
tanh
BN
ReLU
OR
BN
ReLUReLU
dropout
softmax
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓
G (Generator)
D (Discriminator)
E (Extractor)
BN: batch normalization
PA: Pre-Activation
𝑝𝑝𝐷𝐷(𝑦𝑦)
𝑝𝑝𝐷𝐷(𝑆𝑆)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒄𝒄
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
400 400 100 50 100
50 100 100
100 100 50
104
5
4
𝑝𝑝𝐸𝐸(𝑦𝑦)
𝒙𝒙
分類に有効な表現をExtractorに生成させ、
それをGeneratorに真似させる点がミソ

Dのコスト関数を、Sに関するコストと、分類結果のクロス
エントロピーの重み付き和とする
• LAC-GANの学習順序
z,cの生成＋Dの学習
（Gは固定）
z,cの生成＋Gの学習
（Dは固定）Eの学習
• E，D，Gのコスト関数
cross entropy

分散表現
Visual Genomeデータセット[Krishna+ 16]を元に、評価用
データセットを構築した
• Object Manipulation Multimodal Data Set
– 動作タスク成功度（＝動作が成功しそうか）を人手でラベル付け
• 言語由来の特徴量のみを利用
– PV-DM[Le+ 14]（472万文で学習）を用いて、「名称」「状況」の
説明文をパラグラフ分散表現に変換
Name: bottle
Situation: insulated water
bottle with sipper top. ... a set
of keys by the water bottle.
ラベル
１：禁止
２：不可能
３：困難
４：容易
分散表現
Name: bottle
Situation: a bottle in a
woman's hand. … woman
holding a water bottle.
ラベル
１：禁止
２：不可能
３：困難
４：容易
タスク成功に重要な情報が
言語で表現されている

結果：
LAC-GANはBaselineよりも良く、単純なDNNよりも良い
• 入力＝400次元（分散表現）、出力＝４クラス（動作成功度）
• サンプル数＝670（学習:検証:テスト＝80%:10%:10%）
• 評価尺度＝分類精度
– 「Validationセットで最良性能のモデル」のテストセット精度
手法テストセット精度
（汎化誤差）
Baseline（AC-GAN[Odena+ 16]、PA無） 50.7%
Baseline（AC-GAN、PA有） 58.2%
Extractorのみ（＝単純なDNNに相当） 61.1%
提案手法（LAC-GAN） 67.1%
LAC-GANでData
augmentationしたほうがよい
Pre-activation（PA）
による標準化の効果

背景生活支援ロボットに対し、短い文で命令できれば
便利である
提案 LAC-GANによる動作タスク成功度を最大化する
命令文理解
結果 AC-GANや単純なDNNなどのベースラインより
高い精度
【お知らせ】
NICT先進的音声技術研究室では、研究員を
募集しています（締切2017/11/29）
まとめ

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

Recommandé

Recommandé

Contenu connexe

Plus de Komei Sugiura

Plus de Komei Sugiura (15)

Dernier

Dernier (11)

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解