[DL輪読会]Learning quadrupedal locomotion over challenging terrain

DEEP LEARNINGJP
[DL Papers]
1
http://deeplearning.jp/
Learning quadrupedal locomotion over
challenging terrain
Kohei Nishimura

書誌情報
2
• タイトル
–Learning quadrupedal locomotion over challenging terrain
• 著者
– Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, Vladlen Koltun, Marco
Hutter
• 所属
– Robotic S y s t em s Lab, Robotics & Artificial Intelligence Lab, Intelligent
S y s t em s Lab
• 出版
– Science Robotics
• リンク
– 論文: https://ro b o tics.s ci en cem ag. o rg/ co nt ent/ 5 / 4 7/ eab c5 9 8 6
– コード: なし
• ※注釈がない場合は、本論文からの引用

概要
3
• 概要
– 多様で複雑な自然環境下で歩行できる4 足歩行のロボットの制御方策の
学習方法を提案した。
– 複数のロボットに対して全く同じ方策で異なる環境にチューニングすることな
く適用し、歩行できることを確認した。
– 制御時の入力情報には各関節の状態とIMUのみを利用し、vis ionや衝突センサ
など複雑なシステムを必要とせずに歩行を実現した。
– 方策の学習にはSim2Realを用いて、zero-shotの学習とした。

結果の概要
• 実世界の様々な環境で失敗なく異動が実現できている
– https://robotics.sciencemag.org/content/5/47/eabc5986/tab -figures -
data
4

目次
5
• 背景
• 先行研究
• 提案手法
• 結果
• まとめ

背景
• 多脚ロボットは障害物があったり、様々な環境下で動作できるロボッ
トとして注目を浴びている
• 汎化性能、チューニングしやすさ、効率性を考慮した研究は少ない
6https://www.bostondynamics.com/spot-mini http://biomimetics.mit.edu https://www.anybotics.com/anymal/

先行研究
7
• 多様な環境での4 足歩行の制御
– 接地や滑りなどの状態を明示的に推定する。
– 泥、雪、植生などのモデル化されていない環境において不安定になることがあ
る。
• RLによる制御方策の獲得
– 室内の平坦な表面や適度にテクスチャのある表面など、実験室の環境や条件に
限定されており、多様性が十分に評価されてこなかった。

問題設定
8
• 4 足のロボットで歩行をさせる
• 制御入力は進行方向と移動方向のみ
目標速度は入力としない。

提案手法の概要
• 手法の概要図
9

提案手法の肝
10
• 論点
– 環境に対する汎化性能が高い制御方策をどうやって獲得するか
• 打ち手
1. 制御アーキテクチャ
• Sim2Realのアプローチを取りやすい制御アーキテクチャ
2. 方策学習
• Sim2Realの強みを活かした蒸留の利⽤
3. カリキュラム学習
• 学習時の環境のパラメータを⾃動で更新する

1. 制御アーキテクチャ
• 機体の状態(速度と姿勢)と、各関節状態を用いて制御するアーキテ
クチャをとることで、Sim2Realの転移をしやすい問題設定にして
いる
– カメラや接触センサなどの情報を利用しないため、センサ空間で実世界とシ
ミュレータの差を埋める必要がない。
11

(補足) Horizon Frame
制御を安定化させるため、Horizon Frameを用いている.
• 概要
– 座標系のxy平面は常にz軸(地磁気方向)と垂直である座標系
• 効用
– 本体の姿勢などによる影響を受けないため、制御の安定性や姿勢の復元に貢献
する。
https://iit-dlslab.github.io/papers/barasuol13icra.pdf
12

(補足) Foot Trajectory Generator
•
13

2. 方策学習
• 概要
– シミュレータ内の環境情報をリッチに取得できる環境での強化学習で親方策を
学習させる
– 実機制御に用いる方策は親方策からの蒸留によって獲得する
14

2.の詳細親方策の学習
シミュレータ内でリッチな環境情報を入力に強化学習する
• 学習アルゴリズム
– TRPO
• 入力情報
– e n c o d e r
• !"(リッチな情報)
– MLP
• #"(ロボットの状態), $"(潜在表現)
• NN構造
– MLP(encoder) + MLP
15

2.の詳細親方策の学習
• TRPOの報酬関数
• 報酬関数の内容とお気持ち
– !"#: 機体の座標系方向の速度に対する報酬
• 速いほど良い
– !$#: 各関節の回転速度に対する報酬
• 速いほど良い
– !%: 機体の移動方向に対する報酬
• 機体の⽅向が安定しているほど良い
– !%&: 機体のbodyと地盤の衝突に対する報酬
• 衝突しない⽅が良い
– !': 理想軌道に対する報酬
• 理想軌道がスムーズな⽅が良い
– !(: 関節トルクに対する報酬
• トルクが少ない⽅が良い
16

2.の詳細子方策の学習
親方策を用いてEncoderの教師あり学習を行う
• Encoder学習アルゴリズム
– 誤差関数
• 入力情報
– e n c o d e r
• ℎ"
– MLP(親方策と同じ)
• NNの構造
– TCN(Encoder) + MLP
17

(補足) TCN
• 時系列情報を表現するネットワーク
18
https://arxiv.org/abs/1803.01271

• RL学習を用いて、歩行性能が高く、汎
化性能も高い方策を学習するためには
、簡単でも難しくもない環境で学習す
ることが重要であると主張した。
• 粒子フィルタを用いて学習環境を更新しつ
つ制御方策を学習する学習する手法を提案
した。
• 学習環境の地盤形状のパラメータを粒子
フィルタで用いて更新する
19

3.詳細アルゴリズムの詳細
" ,$• 推定したい値は、!%
• 観測確率は
– 0.5, 0.9は、ハイパーパラメータ
• 地盤形状の望ましさ&'(!" , ))は、
• ここで、追従可能度合い&+(!", ))と評価関数, は、
20

(補足) アルゴリズムフロー
•
21

実験設定
• 概要
– 屋外・屋内の環境で人の制御信号(進行方向と回転方向)に従ってロボットを歩
行させる
– ロボットは複数の世代のANYmalを用いる
• 評価指標: cost of transport
– 制御の効率性を評価する指標
– !: 関節のトルク
– #̇: 関節速度
– $%: 総重量
– ' : 移動速度
23

ベースライン
• アクチェエータのモデリングによって、経路
生成・非線形最適化によって制御信号を出力
する
24https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/221541/bellicoso-ral.pdf?sequence=8&isAllowed=y

実験設定
•
25屋外の環境屋内の環境

実験結果定量評価
• ベースラインよりも効率よく移動できていることが示された
26

実験結果
• 失敗の少なさ、速度の安定性、姿勢の誤差のすべてでBas e lin eを上
回った
27

Ablation study
28
1. TCNの入力ステップ数
2. 方策の蒸留

Ablation1. TCNの入力ステップ数
• 入力ステップ数を増やせば増やすほど性能が向上する。
– 実機適用時のステップ数は1 0 0
– 1 0 0 よりも大きい値との比較はなかった。
29

Ablation2. 方策の蒸留
• 方策の蒸留を用いることで性能が向上することを確認した。
30

Ablation3. カリキュラム学習
• カリキュラム学習によって性能が向上することを確認した。
31

環境への適応性についての実験
• 潜在表現からリッチな環境情報をDe c o d e して、地盤形状と足周辺の
状態の不確実度が、現実挙動と合致しているようにみえる
• 枕木(?)に衝突することで、状態の不確実度が変化している。
– 赤丸: 足周辺の土形状、青丸: 足の先端の位置、赤の三角: 状態の不確実度
32

まとめ
33
• Sim 2 Re alを用いて、4 足歩行ロボットの制御方策を学習し、実機で
も汎化性能を確認した。
• visionなど外部センサを利用せずに制御を行った。

所感
34
• Sim 2 Re alでうまくいく問題設定・アーキテクチャの設計が素晴らし
いと思う
• Boston Dynamicsのs p o t は、おそらく学習を使わずに動くコント
ローラをつくりあげている
• RLのタスクとして、他のタスクと比べて4 足歩行がどの程度難し
いものなのかいまいちわからず..

参考文献
35
• Learning quadrupedal locomotion over challenging terrain
– https://robotics.sciencemag.org/content/ 5/47/eabc5986/tab-figures -
data
• An empirical evaluation of generic convolutional a n d recurrent
networks for s e q u e n c e modeling
– https://arxiv.org/abs/ 1803.01271
• A Reactive Controller Framework for Quadrupedal Locomotion
on Challenging Terrain
– https://iit-dlslab.github.io/papers/barasuol13icra.pdf
• Dynamic locomotion through online nonlinear motion
optimization for quadrupedal robots
– https://www.research-
collection.ethz.ch/bitstream/handle/ 20.500.11850/221541/bellicoso-
ral.pdf?sequence=8&isAllowed=y

[DL輪読会]Learning quadrupedal locomotion over challenging terrain

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [DL輪読会]Learning quadrupedal locomotion over challenging terrain

Similaire à [DL輪読会]Learning quadrupedal locomotion over challenging terrain (8)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

[DL輪読会]Learning quadrupedal locomotion over challenging terrain