takadou m
- 2. ※ 大域的引き込み型制御
- 制御系と身体の相互引き込みによる制御.
研究背景(1/2)
• 多自由度の身体を持つロボットの学習は困難.
ex) 自由度問題, 次元の呪い, 部分観測問題
• 大域的引き込み型制御は運動を低次元化.
⇒ 学習初期には引き込みが成立しない…
• 低次元化された運動を事前に与えるのが一般的.
⇒ 作りこみによる行動発現の抑制. 設計者の負担大.
歩行達成時 学習開始直後
変数の軌跡
大域的引き込み
制御系
身体
環境
周期信号で
身体駆動.
センサ信号へ
引き込み.
- 3. 研究背景(2/2)
• 生物的手法 - 冗長自由度を凍結, 多自由度の問題を軽減. - 適切に解放を進め学習を収束
• 自由度数の凍結と解放の理論的実証,工学的応用はなされていない.
運動 設計
自由度 凍結
初期状態
低次元 運動獲得
自由度
解放
従来の工学的手法
生物的手法
- 4. ②解放ループ
研究概要
テーマ:自由度数の凍結と解放を利用した運動学習法の提案
初期状態
① 静的自由度の凍結
運動獲得
静的自由度の解放
低次元運動獲得
静的自由度の凍結状態
動的自由度の凍結状態
※CPG = Central Pattern Generator(パタン信号生成器)
LCA = Limit Cycle Attractor
関節定位(静的自由度の凍結:インピーダンス制御)
- 引き込み成立時
動的自由度の凍結により低次元化維持.
- 引き込み失敗時
LCA参照,部分観測問題回避.
• 以上の学習法を数値シミュレーション上の二足歩行で検証.
引き込み成立, LCA形成.
⇒ 低次元運動を維持した自由度の解放.
⇒ 自由度間の同期
(動的自由度の凍結:CPG内部結合の固定)
⇒ 自由度数を直接抑制
LCA 転倒時
学習フロー
運動学習
運動学習
⇒ オリジナルの仮説との比較が容易なため.
- 5. シミュレーションモデル
a)身体モデル
- 7リンク7関節
- 矢状面内に拘束.
- 腰リンクはやや前傾で固定
b) 環境モデル
- 凹凸の無い床面
センサ信号
トルク出力
c) CPG d) 姿勢制御系
- 立位を目標とする絶
対角PD制御.
f) 拘束系
静的
自由度の
凍結
の付加.
(後述)
e) 学習系
-状態と姿勢制御
(on/off)の写像を学習.
- Q-learning
- 履歴に基づく強化学
習法(畝見’92)
物理系 制御系
歩行
立位 CPG
歩行の
階層構造
- 動的自由度の凍結
を仮定し,結合は固定.
- 同脚3関節を同期.
制御則修正
- 6. 解放ループ
シミュレーション実験Ⅰ:静的自由度の凍結 (1/3) 実験概要
初期状態
静的自由度の凍結
運動獲得
静的自由度の解放
低次元運動獲得
静的自由度の凍結状態
動的自由度の凍結状態
- 何を目標に定位? ⇒ タスク依存.
- 歩行の目的:転ばないこと = 地面との絶対的位置関係を維持 = 立位を目標とする絶対角制御(=姿勢制御)
- 姿勢制御は学習対象. 一緒くたにすると探索時に拘束が外れる…
エピソード内で時不変な インピーダンス量として拘束系を定義.
• 部分観測下での学習 観測次元に強く依存した運動 = 低次元化された運動 の獲得.
静的自由度の凍結の設定
運動学習
運動学習
- 7. シミュレーション実験Ⅰ:静的自由度の凍結(2/3)
実験結果(1/2)
~収束性の比較~
完全観測状態(観測次元31) 部分観測状態(観測次元6) 静的自由度の凍結
~獲得された歩行における各変数の標準偏差~
左:非凍結・完全観測時 右:凍結・部分観測時
- 静的自由度の凍結により,各変数の標準偏差が大きく減少.
= 不確定性の減少に寄与.
部分観測になり収束性が悪化 静的自由度の凍結により改善
横軸:エピソード 縦軸:収益
横軸:項目
縦軸:標準偏差
- 8. 非凍結・完全観測時
凍結・部分観測時
平均学習終了
エピソード
1649
(±316)
464
(±147)
平均達成
サンプル数
3010
(±564)
375
(±126)
平均転倒率(%)
25
2
シミュレーション実験Ⅰ:静的自由度の凍結(3/3) 実験結果(2/2)
~20回の平均データ~
観測次元の減少に伴い改善.
-.定位性向上により減少. ⇒ 学習の収束に寄与.
~学習後の歩容~
非凍結・完全観測時
凍結・部分観測時
- 動きの小さな歩容を獲得.
-凍結時には試行によらず ほぼ一様な歩容に.
実験Ⅰまとめ - 自由度を静的に凍結することで,低次元化された歩行の獲得を達成. ⇒ 未観測次元の不確定性減少と,転倒率減少によるものと考えられる.
>
>
>
- 9. シミュレーション実験Ⅱ:静的自由度の解放 (1/4)
実験概要(1/2)
歩行達成時 転倒時
観測次元
未観測次元
基礎実験)
凍結状態から少し拘束を緩めた際の変数の軌跡
- 引き込み成立時:動的凍結による自由度間の拘束(同期).未観測次元の観測不要.
- 引き込み失敗時:自由度間の拘束崩壊,部分観測問題に陥る可能性あり.
⇒ 学習を避ける必要あり.
解放ループ
初期状態
静的自由度の凍結
運動獲得
静的自由度の解放
低次元運動獲得
静的自由度の凍結状態
動的自由度の凍結状態
運動学習
運動学習
- 12. シミュレーション実験Ⅱ:静的自由度の解放(4/4) 実験結果(2/2)
~解放の速度と収束性~
- 粗く解放を進める程,解放を完了が 難しくなる傾向.
実験Ⅱ まとめ
- 動的自由度の凍結を利用することで,静的自由度の段階的解放が可能. - 実時間で解放を完了させるには直線的な解放の進行では不十分.
~成功時(6/10)平均データ~
成功率
60%
平均達成
エピソード
11301
(±4078)
平均達成
サンプル数
1980
(±217)
平均転倒率(%)
2
-確実に解放を完了させることはできなかった. 解放の進行が十分緩やかではなかった?
- 緩やかな解放と計算時間はトレードオフ. 解放の順序やタイミングの適切な判断が必要.
- 試行を通して転倒率は低い. LCAを転倒の先読みに利用可能.
横軸:エピソード, 縦軸:凍結度(初期は100)
- 13. まとめ
運動 設計
自由度 凍結
初期状態
低次元 運動獲得
自由度 解放
従来の工学的手法
生物的手法
a) 達成事項
- 静的自由度の凍結と解放の過程が, 運動の作りこみを軽減する可能性を示した.
- 身体性を変化させて学習を導くという点で,従来とは異なるアプローチ.
b) 検討事項 - 運動全般に対して用いるためのより一般性のある初期拘束条件の定義. - 自律的学習達成のための,ロボットが自身で学習の状況を把握し,それに合わせて身 体性を変化させていく枠組み.
解放ループ
初期状態
静的自由度の凍結
運動獲得
静的自由度の解放
低次元運動獲得
静的自由度の凍結状態
動的自由度の凍結状態
運動学習
運動学習
提案手法
- 15. 運動発現の場
研究背景(1/4) 軌道計画追従型制御
a) 軌道計画追従型制御とは
環境のモデル化 ⇒ 軌道計画 ⇒ 軌道追従 という一連の流れによる制御 .
制御系
身体
環境
b) 工場内(=静的な環境)で用いた場合…
c) 人間の生活空間(=動的な環境)で用いた場合…
- 作業空間の把握, 環境のモデル化が容易.
- 事前に運動軌道を作りこむことが可能. - 想定される事象には限りがあり,フィードバック則の記述 が容易.
高精度かつ信頼性の高い運動を実現.
- 作業空間内の全ての事物,事象を完全に把握することは不可能であり,環境のモ デル化が困難.
- 一連の処理は直列に行わなければならず,即応性には限界がある..
- 事前に全ての事象を想定し,完全なフィードバック則を記述しておくことは不可能.
全ての運動を軌道計画追従型制御で記述するには無理がある…
- 16. 運動発現の場
CPG(制御系)
研究背景(2/4)
グローバルエントレインメント型制御
制御系
身体
環境
a) グローバルエントレインメント型制御とは
Central Pattern Generator(以下,CPG)と身体の相互引き込みによる制御.
※CPG : 生物の脊髄に存在するRecurrent Neural Network.
外部信号に引き込みながら,周期的パターン信号を生成する.
身体
b) 相互引き込みにより,制御系が身体・環境に強く埋め込まれる.
その結果,生まれる大域的引き込み = グローバルエントレインメント
c)グローバルエントレインメント型制御の利点
- センサ情報に合わせて制御が変化する
ため,未知環境やノイズへの適応力が高い.
- 環境のモデル化,軌道計画が不要であり,
即応性に優れている.
- 自律分散型の構造を有しているため,
局所的不具合に対して頑健.
-.運動が低次元の空間に引き込まれるため,
状態の知覚が容易
従来型制御の弱点を補う制御方式
外部信号への引き込み
運動の低次元化
周期信号により
身体を駆動.
センサ信号への
引き込み.
d) ただし,事後的に定まる運動を制御系
から予測するのは難しく, 自律的行動学
習が今まで以上に重要となってくる…
- 17. シミュレーションモデル(1/5)
物理系
a) 身体モデル
- 7リンク7関節(剛体リンクモデル)
- 身体は矢状面に拘束,二次元平面内でのみ運動.
- 関節の稼動域,摩擦はバネ・ダンパモデルにより
モデル化.
- リンクの質量,長さ,関節の稼動域は人間の身体を
参考に設定.
- 腰関節は前傾姿勢で固定.
※ 腰リンクの役割
- 体が浮き上がるのを抑える重り.
- 前傾姿勢により,足踏みを歩行に導く.
b) 環境モデル
- 平坦な床面を想定.
- ロボットはリンク端においてのみ,環境と接触可能.
- 環境との接触は,バネ・ダンパモデルによりモデル化.
- 18. シミュレーションモデル(2/5)
制御系(Central Pattern Generator)
周期発火 引き込み
a) 神経振動子:周期発火する最小の神経素子群
松岡モデル(松岡1985)を使用.
b)神経振動子対の挙動
- 神経振動子を相互結合することで周期発火
- 結合が興奮性になる程,位相が近づく
- 結合が抑制性になる程,位相がずれる
- 外部周期信号に対して引き込む.
c) ロボットへの結合
- 1つの神経振動子対が1つの関節に対応.
- 神経振動子はそれぞれ屈曲,伸展を担当.
- 関節角度が神経振動子にフィードバック.
= ローカルな相互引き込み.
d) 神経振動子対を相互結合(=CPG)
- 身体自由度間の相互引き込み.
- 本研究では,動的拘束を仮定し,
終始,片脚3関節を強く同期.
↓CPG構成
- 19. シミュレーションモデル(3/5)
制御系(姿勢制御系)
a) 姿勢制御系はどのように設計すべきか…
• 下位の運動要素を時間的・空間的に任意の複雑な運動を生成可能(川人2005)
• 歩行 = 立位姿勢制御 + 原始歩行 ?
歩行
立位
CPG
(原始歩行)
原始歩行
立位獲得
歩行学習
生理学的
歩行発達シナリオ
運動プリミティブの
階層構造
b) 実際,これにより歩けることが示されている.本研究でも立位姿勢を目標とする
姿勢制御(絶対角PD制御)を行なう.
- 20. シミュレーションモデル(4/5) 問題設定・強化学習系
歩行
立位
CPG
運動プリミティブの
階層構造
a) 問題設定 - 学習対象:立位姿勢制御のゲーティング. (但し,簡易的にon/offにより行ない, 同側の股関節と膝関節は同じ制御信号で駆動. ⇒ 行動数 16) - 目標タスク:10秒間の2足歩行 - 制御,学習のタイミングはCPGの活動電位の変化に合わせる.
b) 報酬関数 - 1歩進む :+1.0 - 転倒 : -10.0 - 次の一歩を規定時間内に踏めない:-10.0
学習系(強化学習)
d)行動評価の定義(更新式) - Q-learning(Watkins1992)
c)行動評価関数の保持:
履歴に基づく強化学習法(畝見1992)
- ロボットは具体的な経験から, <センサ情報,行動,評価>を サンプルとして記憶.
- ある状態行動対の評価は, 最近傍のサンプルの評価値.
- 但し,最近傍のサンプルとの 距離が閾値以上遠い場合, 評価値は-1.0.
- 本研究では減衰率γ=1.
-更新はエピソード終了後,off-lineで後ろから.
e)政策関数
- 偶数エピソード時 ⇒ greedy
- 奇数エピソード時
偶数エピソード時の歩数より少ない歩数を
乱数により設定.
その歩数まで ⇒ greedy
その歩数以降 ⇒ ε-greedy
※距離の定義については後述.
- 21. 数値シミュレーション実験Ⅱ 部分観測状態における学習
・ 次状態を完全に予測し,報酬に一意性を持たせるための変数(×31)
関節角度 × 7 関節角速度 × 7
CPG出力 × 12 重心位置・速度 ×3
以前に足を着いた地点の相対位置 × 1
以前に足を着いてからの経過時間 × 1
観測次元を以下の変数に制限する. (観測次元数の変化: 31 ⇒ 6 )
- 股関節角度 ×2 - 股関節屈曲CPG ×2
⇒ 解放過程において,制御系と身体の引き込みの判定に利用するために選定..
- 以前に脚を着いた位置との相対位置 ×1 - 以前に脚を着いてからの経過時間 ×1
⇒ 報酬に一意性を持たせるために選定.