Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)

945 vues

Publié le

1. 対話技術の現状
2. 動作と言語によるコミュニケーション学習機構L‐Core の概要
3. 動作の模倣学習
4. 連続音声からの語彙の学習
5. 状況依存的発話理解の学習
6. 確認発話生成
7. 実世界に関する質問応答の学習
8. まとめ

Publié dans : Ingénierie
  • Soyez le premier à commenter

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)

  1. 1. 人間とのインタラクションにより 言葉と行動を学習するロボット 岡山県立大学 岩橋直人 1
  2. 2. 内容 1. 対話技術の現状 2. 動作と言語によるコミュニケーション学習機構 L‐Core の概要 3. 動作の模倣学習 4. 連続音声からの語彙の学習 5. 状況依存的発話理解の学習 6. 確認発話生成 7. 実世界に関する質問応答の学習 8. まとめ 2
  3. 3. ロボット対話 実世界情報をカテゴリ化、予測し、実世界を操作可能 な対話システム 日常生活支援ロボットの対話機能は、現状ではまった く不十分である ロボットの対話技術はとても難しい! どうして? 従来の言語処理では、 記号の意味は記号で記述されている ユーザーと物理世界に関する共有信念を形成できない 「いつものあれ持ってきて」 「これを引き出しにもどしておいて」 3はじめに
  4. 4. 共有信念はコミュニケーションの基盤 4はじめに 翔太: コーヒーを飲むかい 美咲: コーヒーを飲むと目が覚めるわ 美咲は、目を覚ましたいので申し出を受けたい。 美咲は、目を覚ましたくないので申し出を断りたい。 翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。 翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。
  5. 5. 共有信念はコミュニケーションの基盤 5はじめに 翔太: コーヒーを飲むかい 美咲: コーヒーを飲むと目が覚めるわ 美咲は、目を覚ましたいので申し出を受けたい。 翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
  6. 6. 実世界 ロボット 信念 拡張性 グラウンディング ユーザ 信念 共有 6 ロボット対話の三つの要件
  7. 7. 対話処理の記号創発的アプローチ L‐Core 幼児のようにコミュニケーションを自律的に 学習する手法 7
  8. 8. L‐Coreの信念システム 8
  9. 9. 共有信念関数 Ψ(s,a) 個別確信度 ベクトル 動作-オブジェクト 関係 行動 コンテキスト 音声言語 動作物体 L‐Coreの信念システム 全体確信度関数 f(d) 発話と行動の生成と理解 9
  10. 10. L‐Core の機能 ロボットに向けられた発話 の検出 状況依存的発話理解 確認発話生成 実世界に関する質問応答 役割反転模倣 自律的オンライン物体学習 音韻学習 物体概念学習 動作模倣学習 語彙学習 文法学習 語用法学習 10
  11. 11. 11 動作の模倣学習 課題:単語音声と物体操作の ペア から動詞とそ の意味を学習する 難しさ: 非観測情報の推測 参照点 座標系 *羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.
  12. 12. ランドマークと座標系の例 12 飛び越えさせる 近づかせる乗せる 持ち上げる
  13. 13. HMMによる動作の学習 13 HMM 0 0 動作「のせる」 出力正規分布 HMMは時系列信号の確率モデル 複数軌道を入力して一つのHMMを学習する 「のせる」の学習データ
  14. 14. 参照点に依存したHMMによる軌道生成 軌道は、HMMの尤度(確率)が最も高くなる ように生成する 入力: 動作ID, 参照点 出力: 最尤軌道 14 0 0 動作「のせる」 参照点 元の位置
  15. 15. 問 題 設 定 15 ここは スマートルーム です ここの名前はスマートルームここの名前はスマートルーム この場所は スマートルーム 2 1 対象IDこの場所は 会議室の前 指示 1 対象ID 単語や文法の 知識を持たない ロボットが 文音声と指示対象の ペア から単語とその意味を学習する 言い回し キーワード このばしぇおあ かいでぃひつのまえ
  16. 16. 提案手法の原理 発話と指示対象の共起確率モデルの学習 統計的モデル構造選択 語彙の学習 16 1 2 3
  17. 17. 発話と指示対象の共起確率モデル 三種類の確率モデル(音響,文法,語意)を統合 W1 WLW0 WL+1 S 発話 A 対象 O 始端 単語 単語 終端 単語列              ss L l ll L l ll NBests S WOPWWPSAP SOPSPSAPOAP 1 3 0 121 )|(log)|(log);|(logmax )|()()|(log),(log  文法音響 語意 17
  18. 18. 提案手法の流れ 18 学習データ 対象 音声 モデル選択による単語リスト最適化 初期単語リストの構築 語意モデル文法モデル 文法モデルと語意モデルの学習 音素列 w1 k/o/k/o/w/a w2 g/a/k/u/s/e w3 b/e/y/a ・ ・ ・ 部分音素列の種類:約6000種類 (60発話) 単語リストの項目数:約200単語 各部分列の 前後1モーラの情報量 が閾値以上なら追加 単語リスト かいぎし かいぎしつ ?? ?? ????
  19. 19. モデル選択による単語リスト最適化 19 MDL基準に従って不要な単語を削除する 記述長=-(モデル尤度)+ log(データ数) データのあてはまりの良さとモデルの自由度とのバランスを取る 自由度 2 モデル尤度=  データ数 i ii OAP ),(log 自由度={ 単語数2+2 ×単語数 }+{ 対象数×単語数 } モデル1 の単語 w1 k/o/k/o/w/a w2 h/o/k/o/w/a w3 g/a/k/u/s/e ・・・ モデル2 の単語 w1 k/o/k/o/w/a w3 g/a/k/u/s/e ・・・ Bigramの確率が高い2単語を連結1 2
  20. 20. 提案手法の流れ 20 学習データ 対象 音声 モデル選択による単語リスト最適化 初期単語リストの構築 語意モデル文法モデル 文法モデルと語意モデルの学習 単語リスト
  21. 21. 実験用収録音声 21 対象 キーワード 対象 キーワード 1 会議室の前 6 竹内さんのブースの南 2 辻野さんのブース 7 工作室 3 フロアの真ん中 8 アシモの部屋 4 学生部屋の前 9 スマートルーム 5 お茶飲み場 10 スマートルームの入り口 言い回しのパターン この場所は~ ここは~です ここの名前は~ ~の所に行って ~へお願い 今から~へ行って 言い回し6種類 60発話を収録キーワード10種類 音素正解精度は平均 81 %
  22. 22. 実験結果( 16名分の平均) 22 203 99 74 51 37 29 25 24 23 23 23 81% 50% 85% 40% 50% 60% 70% 80% 90% 100% 0 50 100 150 200 0 1 2 3 4 5 6 7 8 9 10 音素正解精度 (折れ線グラフ) 単語数(棒グラフ) 単語リスト最適化の回数 獲得単語数 発話の音素正解精度 出力キーワードの音素正解精度
  23. 23. 実験結果:提案手法で獲得されたキーワード例 23 正解キーワード 最適化なし 最適化10回 会議室の前 かいすのまえ かいすのまえ 辻野さんのブース つじのさ つじのさうのぶす フロアの真ん中 なか ふろあどまんなか 学生部屋の前 がくせえべや がくせえべやのまえ お茶飲み場 おちょ おちゃのいま 竹内さんのブースの南 み たきょいつさんのぶすのみなみ 工作室 こおさくしつ こおさくひつ アシモの部屋 あしものへや あしものへや スマートルーム む すもあとるむ スマートルームの入り口 ち すまとるむのいいぐち 平均音素正解精度 43 % 85%平均 音素正解精度 単語リストの最適化によって分節誤りが修正される
  24. 24. 学習中の認識結果の例 発話 「この場所はフロアの真ん中」 音素認識結果: こどばしぇおあふろあのまんがか (k o d o b a sh e o a h u r o a n o m a ng g a k a) 初期モデル :/  こど /  ば /  しょわ /  ふろあ /  ど /  まんなか / モデル選択1回:/  この /  ばしょわ /  ふろあどまん /  なか / モデル選択2回: /  このばしょわ /  ふろあどまんなか / 24
  25. 25. 共有信念関数 25     1 , 2 3 4 5 ( , ) max log ( | ; , ) log ( | ; ) log ( | ; ) log ( | ; ) log ( , | ; ) log ( , | ; ) l z T L M M s a p s z L G p t W L p l W L p u W L p t l W R p t l q H             個別確信度ベクトル MCE 学習 ML/MAP 学習 信念モジュール 音声言語 HMMs 物体画像 Gaussians 動作 HMMs 動作‐オブジェクト関係 Gaussians 行動のコンテキスト Multinominal distribution
  26. 26. 発話理解 26  arg max ( , )  A a s A 最適動作 入力音声 可能な動作
  27. 27. 最適化の過程 0 20 40 60 80 100 120 140 1 2 系列5 系列4 系列3 系列2 系列1 音声認識結果: 1st: カーミット 青い 箱 持ち上げて 2nd:カーミット 青い 箱 のせて 発話:“カーミット 青い 箱 のせて” 行動コンテキスト 動作‐オブジェクト 関係 動作 物体 音声言語 Optimal Second Ψ(s,a)
  28. 28. 実験 96 発話‐シーン サンプルペア 詳細な発話と、曖昧で断片的な発話を含む 語彙 50物体に対して60 単語, 7動作に対して7単語 学習エピソード数の影響を評価 Leave‐one‐out cross validation 28
  29. 29. オンライン MCE 学習 ‐0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 0 10 20 30 40 50 60 70 80 90 Local confidence value 系列1 系列2 系列3 系列4 系列5 系列6 Speech Object Motion‐object relationship Motion Holding Previously moved The number of episodes 29 個別確信度ベクトル エピソード数
  30. 30. 理解率の改善 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 Understanding rate (%) 系列1 The number of episodes  38% 30 エピソード数 音声理解率(%)
  31. 31. 2ステップ意思決定過程 1. ロボットは、ただちに動作を開始するか、また は、確認発話を生成するか、決定する (whether to) 2. ロボットは、確認発話として何を生成するか、 決定する(what to) 31
  32. 32. 最適化過程のマージン 0 20 40 60 80 100 120 140 1 2 系列5 系列4 系列3 系列2 系列1 音声認識結果: 1st: カーミット 青い 箱 持ち上げて 2nd:カーミット 青い 箱 のせて 発話:“カーミット 青い 箱 のせて” 行動コンテキスト 動作‐オブジェクト 関係 動作 物体 音声言語 Optimal Second Ψ(s,a) マージン
  33. 33. 33 全体確信度関数Probability   1.0 0.5 ‐50        0       50     100    150     200 Margin d 0.0 strong weak ‐ + 入力: マージン 出力: ユーザ発話がロボットによって正しく理解された確率の推定値 ロボット発話がユーザによって正しく理解される確率の推定値 ベイジアンロジスティック回帰で学習 共有信念関数とユーザの共有信念の一致度を評価
  34. 34. 確率的意思決定 最大期待効用を生む閾値 0 に基づく意思決定 34 正解 反応 1 0 動作 確認発話 効用 動作 , + 1 , 確認発話 , + 1 , 期待効用 推定正解確率 , 0 1 動作 確認発話
  35. 35. 35 理解される確率を制御する発話生成   arg min f , s s d s a   最適発話 動作 可能な発話 ターゲット確率
  36. 36. 単語の追加による確認発話生成 f(d(s,a)) が  を越えるまで単語を追加 36 箱持ち上げて. f(d’) “大きい赤い四角い箱” 0.98 “大きい赤い箱” 0.92 “箱” 0.47 “小さい青い箱” 0.08 “青い箱” 0.01 大きい赤い箱持ち上げて、 いいですか? 
  37. 37. リスク低減の評価 37 Failure rate Rejection rate Confirmation rate # of confirmation utt Baseline  1/4 に減少
  38. 38. 発話行為の認識 38 38 コミュニケーション 物理世界 3つのタイプの発話行為 1. ロボットにオブジェクトを記述させる質問 2. ロボットにオブジェクトを指差させる質問 3. オブジェクト操作の命令 青い箱持ち上げて カーミットどれ? なに?
  39. 39. 今後の展開 ユーザの行動習慣の学習 時間の概念 「きのう見せたペンを持ってき て」 ペット、フルーツ、道具などの、抽象度の高い 意味を持つ語彙の学習 動作学習と言語学習の統一原理追求 … 39
  40. 40. まとめ L‐Core ユーザ信念と物理世界状況に依存した信念シ ステム 認知的言語理解の達成 多機能統合に成功 頑健性、実用性の向上が必要 40

×