SlideShare une entreprise Scribd logo
1  sur  11
Latent Classifier Generative Adversarial Nets
による動詞のない命令文理解
国立研究開発法人 情報通信研究機構
杉浦孔明,河井恒
背景: 生活支援ロボットに対し、短い文で命令できれば
便利である
• すべての生活支援ニーズを、家族や介助犬が担当できる訳ではない
– 介助犬の育成には2年・300万円かかるが、普及率は0.5%
• 今回研究として切り出した問題
– 動作タスク成功率を最大化する言語理解
https://www.toyota.com/usa/toyota-effect/romy-robot.html
音声(言語)
を使った場合
はどんな問題
があるの?
候補が少ないならGUIで
いいけど、多いなら音声
のほうが早いのでは?
問題設定:
物体操作命令を対象とした状況依存言語理解
• 何が難しいか?
– 不完全情報
– シンボルグラウンディング
Instruction: “Bottle, please”
Name: bottle
Situation: An almost empty plastic
water bottle. The water bottle on the
desk.
ユーザの意図
“Bring the plastic bottle
on the desk to me, please”
本研究では、物体認識[Redmon+ 15]、image-to-text[Vinyals+ 14]、
音声対話[Sugiura+ 15]は扱わず、言語理解のみを扱う
「カウンターの上に座っている
マイクロ波オーブン」
x2
音声対話
物体認識
関連研究: GANとLAC-GANの違いは、(Human-readableな
データではなく)「潜在表現」を大量生成させること
分野 例
状況依存言語理解 • 物体操作対話 [Iwahashi & Sugiura+ 10]
• 移動指示に関するSLU[Kollar+ 10]
Generative
Adversarial Nets
(GAN)
• GAN [Goodfellow+ 14]:Fakeデータを生成する
GeneratorとReal/Fakeデータを判別するDiscriminator
の敵対的学習
• Conditional GAN [Mirza+ 14], InfoGAN [Chen+ 16]
GAN-based
classification
• AC-GAN [Odena+ 16]:Discriminatorの出力にクラス
ラベルを追加
• CatGAN [Springenberg 15], cGAN classifier [Shen+ 17]
LAC-GANの着想
• タスクが生成でなく分類であるなら、GeneratorにHuman-
readableデータ(画像、言語等)を生成させなくてもよい
Generative Adversarial Nets (GAN) [Goodfellow+ 14]:
人間が見るための「擬似データ」を、Gが生成
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]InfoGAN [Chen+ 16]
乱数
提案手法:Latent Classifier Generative Adversarial Nets
Data augmentationのための「潜在表現」を、Gが生成
PA ReLU
BN
ReLU
BN
ReLU softmax
BN
ReLU
BN
tanh
BN
ReLU
OR
BN
ReLUReLU
dropout
softmax
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓
G (Generator)
D (Discriminator)
E (Extractor)
BN: batch normalization
PA: Pre-Activation
𝑝𝑝𝐷𝐷(𝑦𝑦)
𝑝𝑝𝐷𝐷(𝑆𝑆)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒄𝒄
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
400 400 100 50 100
50 100 100
100 100 50
104
5
4
𝑝𝑝𝐸𝐸(𝑦𝑦)
𝒙𝒙
分類に有効な表現をExtractorに生成させ、
それをGeneratorに真似させる点がミソ
Dのコスト関数を、Sに関するコストと、分類結果のクロス
エントロピーの重み付き和とする
• LAC-GANの学習順序
z,cの生成+Dの学習
(Gは固定)
z,cの生成+Gの学習
(Dは固定)Eの学習
• E,D,Gのコスト関数
cross entropy
分散表現
Visual Genomeデータセット[Krishna+ 16]を元に、評価用
データセットを構築した
• Object Manipulation Multimodal Data Set
– 動作タスク成功度(=動作が成功しそうか)を人手でラベル付け
• 言語由来の特徴量のみを利用
– PV-DM[Le+ 14](472万文で学習)を用いて、「名称」「状況」の
説明文をパラグラフ分散表現に変換
Name: bottle
Situation: insulated water
bottle with sipper top. ... a set
of keys by the water bottle.
ラベル
1:禁止
2:不可能
3:困難
4:容易
分散表現
Name: bottle
Situation: a bottle in a
woman's hand. … woman
holding a water bottle.
ラベル
1:禁止
2:不可能
3:困難
4:容易
タスク成功に重要な情報が
言語で表現されている
結果:
LAC-GANはBaselineよりも良く、単純なDNNよりも良い
• 入力=400次元(分散表現)、出力=4クラス(動作成功度)
• サンプル数=670(学習:検証:テスト=80%:10%:10%)
• 評価尺度=分類精度
– 「Validationセットで最良性能のモデル」のテストセット精度
手法 テストセット精度
(汎化誤差)
Baseline(AC-GAN[Odena+ 16]、PA無) 50.7%
Baseline(AC-GAN、PA有) 58.2%
Extractorのみ(=単純なDNNに相当) 61.1%
提案手法(LAC-GAN) 67.1%
LAC-GANでData
augmentationしたほうがよい
Pre-activation(PA)
による標準化の効果
背景 生活支援ロボットに対し、短い文で命令できれば
便利である
提案 LAC-GANによる動作タスク成功度を最大化する
命令文理解
結果 AC-GANや単純なDNNなどのベースラインより
高い精度
【お知らせ】
NICT先進的音声技術研究室では、研究員を
募集しています(締切2017/11/29)
まとめ

Contenu connexe

Plus de Komei Sugiura

20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
Komei Sugiura
 
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
Komei Sugiura
 
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
Komei Sugiura
 
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
Komei Sugiura
 
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROSrospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
Komei Sugiura
 
Introduction to RoboCup@Home
Introduction to RoboCup@HomeIntroduction to RoboCup@Home
Introduction to RoboCup@Home
Komei Sugiura
 
ロボカップ@ホーム入門
ロボカップ@ホーム入門ロボカップ@ホーム入門
ロボカップ@ホーム入門
Komei Sugiura
 

Plus de Komei Sugiura (15)

New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard PlatformNew challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
 
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS
 
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
 
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication
 
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
 
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
 
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
 
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
 
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot DialoguesCloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot Dialogues
 
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
 
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROSrospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
 
Introduction to RoboCup@Home
Introduction to RoboCup@HomeIntroduction to RoboCup@Home
Introduction to RoboCup@Home
 
ロボカップ@ホーム入門
ロボカップ@ホーム入門ロボカップ@ホーム入門
ロボカップ@ホーム入門
 

Dernier

Dernier (11)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解