Contenu connexe Similaire à ロボットによる一般問題解決 Similaire à ロボットによる一般問題解決 (20) ロボットによる一般問題解決4. 1.2 知能情報処理の展開(1)
従来の知能ロボット(1950’s ~)
1956 組み込み式 実世界のような常に
複雑に変化する環境
知 If Q then A には対処できない
能 設計者が状況Qや行動A
情 をプログラムする タスク依存
報
処
理 ロボットによる学習(2000’s ~)
の 直接的に経験した
展 認知発達ロボティクス タスクしか実行で
開 きない
ロボットによる
自律的な学習・発達
タスク依存からの脱却
4
5. 1.3 知能情報処理の展開(2)
ロボットの知能発達
認知発達システムの持つべき性質 [Wengら, 2001]
知
能 知識の学習
1. タスクに特有なシステムではない
情 2. タスクがシステムの設計者にとって未知である
報 3. 未知のタスクに対するアプローチを生成できる
処 4. オンライン学習が可能である 知識の生成
理 5. オープンエンド学習が可能である
の
展
開 現在、上記の3.以外の性質を満たす
知能ロボットは実現できている
2010
全身動作のオンライン教示システム [小倉ら, 2005]
語順と挙動のオンライン学習 [佐藤ら, 2008] etc 5
7. 1.5 ロボットの知能発達(2)
認知発達ロボティクス Wengらの示す知能発達
知識1 知識1
知識2 知識2
知識3 知識3
知識4
外部から与えられることで
しか、知識を増やせない 外部から与えられた知識を運
半タスク依存 用することで、“自力で”新
たな知識を生成できる
汎用のタスク 7
8. 2. 本研究の目的
汎用のタスクが実行可能な知能ロボットの実現に向けて
3.を含めWengらの示す性質を全て満たす、
実世界における一般問題解決システム
特長
ロボットは視覚や聴覚から得られるパターンから概念
(シンボル)を形成する
ロボットは環境や人間との相互作用を通じて行動の因
果関係を知識としてオンラインかつ追加的に獲得する
ロボットは既存の知識を組み合わせることで未知のタ
スクに対するアプローチを生成できる
8
9. 3.1 提案手法
3. シンボル記憶層
シンボルの保持
2. パターン記憶層
パターンの保持
1. 入力層
パターンを受け取る
1. 記号接地フェーズ 2. 知識獲得フェーズ 3. 問題解決フェーズ
SOINN [Shenら, 2006] に 行動の因果関係を知識化 実環境における問題解決
よる概念形成 (既存のプランナを使用)
9
11. 3.3 知覚情報のシンボル化
自己増殖型ニューラルネットワーク(SOINN)
[Shenら, 2006] “0”という概
特長 念(シンボル)
オンライン追加学習が可能
高いノイズ耐性 教師ID
自己組織的に成長
0 2 2
0
2
0 0 2
オープンエンド学習 0 2
に不可欠な性質
1 3 3
1
3 3
知覚情報のシンボル化に利用 1
パターン記憶層にセンサ毎に設置
教師IDの付加により概念を形成
Image, Sound SOINN
11
12. 3.4 因果関係の知識化(1)
実環境のモデル化
実環境
ロボットの周囲環境
3つの位置と周囲音の状態
♪
World Model(WM)の作成
1-NN法による記号接地
C B A 述語(At、Ring)による状態記述
WM ={At(“ベル”, A),At(-1, B),
12
At(-1, C), Ring(“ベル”)}
13. 3.5 因果関係の知識化(2)
提案手法では知識をオペレータで表現する
オペレータの構成
前提条件:適用するのに必要な述語の集合
削除リスト:適用すると成立しなくなる述語の集合
追加リスト:適用すると新たに成立する述語の集合
注意のモデル
既知の物体の状態変化に注意
オペレータの構成
オペレータの作成 前提条件 = preWM
オペレータ実行前
削除リスト= preWM - postWM
後のWMを比較
追加リスト= postWM - preWM
13
14. 3.5 プランニング(と実践)
General Problem Solver(GPS) [Ernstら, 1969]:
最も古典的で簡素なプランナ
現在状態と目標状態の差異を減少させるオペレータを選
択し、現在状態にそのオペレータを適用していくという
プロセスを繰り返すことで目標状態を達成する
start goal
A, B A, X
operator 1
subgoal preCond delList addList
Y Y X
14
15. (参考)GPS
GPS(S, G):状態Sに適切なopの系列を適用して状態Gに変換する
1. S と G の差異を求める。差異がない場合は return S
2. 差異を重要な順に列挙する。
3. 差異を縮めるのに有効なオペレータを列挙する。
4. 3. からオペレータを1つ選ぶ。これを op とし、その前提条件を pc
とする。選ぶオペレータがなくなった場合は return false
5. S1 = GPS(S, pc) S1 = false になった場合は4. に戻る。
6. S1 に op を適用して、その結果の状態を S2 とする。
7. return GPS(S2, G)
S pc S1 S2 G
S1 = GPS(S, pc) op GPS(S2, G)
15
16. 4.1 各実験の概要
実験1:基本動作の確認
ロボットは直接的に経験したことのないタスク
に対しても適切に行動できる
ロボットは自らの問題解決能力では実行できな
いタスクに対して、実行できないことを示すこ
とができる
実験2:知識のオンラインかつ追加的な獲得に
よる問題解決能力の向上
ロボットは以前より複雑なタスクを実行でき
るようになる
ロボットは以前に実行できなかったタスクを
実行できるようになる 16
17. 4.2 実験1:知識獲得フェーズ
op1:ベルを押
すと音が鳴る
op2:ドラムを
押すと音が鳴る
op3:ベルの音が鳴ってい
るときに“ちょうだい”を
するとりんごが移動する
op4:ドラムの音が鳴って
いるときに“ちょうだい”
をするとみかんが移動する
17
20. 4.5 実験2:知識獲得フェーズ
op5:右手を挙
げるとりんごが 対称 op6
手元に置かれる
op7:“だだを
こねる”とりん 対称 op8
ごが目の前に移
動する
op9:左手を挙 対称 op10
げるとベルが手
元に置かれる
op2とop1、op4とop3と同様の関係
ベルをドラムに、りんごをみかんに
置き換えたもの 20