SlideShare une entreprise Scribd logo
1  sur  35
DEEP LEARNINGJP
[DL Papers]
1
http://deeplearning.jp/
Learning quadrupedal locomotion over
challenging terrain
Kohei Nishimura
書誌情報
2
• タイトル
–Learning quadrupedal locomotion over challenging terrain
• 著者
– Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, Vladlen Koltun, Marco
Hutter
• 所属
– Robotic S y s t em s Lab, Robotics & Artificial Intelligence Lab, Intelligent
S y s t em s Lab
• 出版
– Science Robotics
• リンク
– 論文: https://ro b o tics.s ci en cem ag. o rg/ co nt ent/ 5 / 4 7/ eab c5 9 8 6
– コード: なし
• ※注釈がない場合は、本論文からの引用
概要
3
• 概要
– 多様で複雑な自然環境下で歩行できる4 足 歩 行 の ロ ボ ッ ト の 制 御 方 策 の
学 習 方 法 を 提 案 し た 。
– 複数のロボットに対して全く同じ方策で異なる環境にチューニングすることな
く適用し、歩行できることを確認した。
– 制御時の入力情報には各関節の状態とIMUのみを利用し、vis ionや衝突センサ
など複雑なシステムを必要とせずに歩行を実現した。
– 方策の学習にはSim2Realを用いて、zero-shotの学習とした。
結果の概要
• 実世界の様々な環境で失敗なく異動が実現できている
– https://robotics.sciencemag.org/content/5/47/eabc5986/tab -figures -
data
4
目次
5
• 背景
• 先行研究
• 提案手法
• 結果
• まとめ
背景
• 多脚ロボットは障害物があったり、様々な環境下で動作できるロボッ
トとして注目を浴びている
• 汎化性能、チューニングしやすさ、効率性を考慮した研究は少ない
6https://www.bostondynamics.com/spot-mini http://biomimetics.mit.edu https://www.anybotics.com/anymal/
先行研究
7
• 多様な環境での4 足歩行の制御
– 接地や滑りなどの状態を明示的に推定する。
– 泥、雪、植生などのモデル化されていない環境において不安定になることがあ
る。
• RLによる制御方策の獲得
– 室内の平坦な表面や適度にテクスチャのある表面など、実験室の環境や条件に
限定されており、多様性が十分に評価されてこなかった。
問題設定
8
• 4 足のロボットで歩行をさせる
• 制御入力は進行方向と移動方向のみ
目標速度は入力としない。
提案手法の概要
• 手法の概要図
9
提案手法の肝
10
• 論点
– 環境に対する汎化性能が高い制御方策をどうやって獲得するか
• 打ち手
1. 制御アーキテクチャ
• Sim2Realのアプローチを取りやすい制御アーキテクチャ
2. 方策学習
• Sim2Realの強みを活かした蒸留の利⽤
3. カリキュラム学習
• 学習時の環境のパラメータを⾃動で更新する
1. 制御アーキテクチャ
• 機体の状態(速度と姿勢)と、各関節状態を用いて制御するアーキテ
ク チャをとることで、Sim2Realの転移をしやすい問題設定にして
いる
– カメラや接触センサなどの情報を利用しないため、センサ空間で実世界とシ
ミュレータの差を埋める必要がない。
11
(補足) Horizon Frame
制御を安定化させるため、Horizon Frameを用いている.
• 概要
– 座標系のxy平面は常にz軸(地磁気方向)と垂直である座標系
• 効用
– 本体の姿勢などによる影響を受けないため、制御の安定性や姿勢の復元に貢献
する。
https://iit-dlslab.github.io/papers/barasuol13icra.pdf
12
(補足) Foot Trajectory Generator
•
13
2. 方策学習
• 概要
– シミュレータ内の環境情報をリッチに取得できる環境での強化学習で親方策を
学習させる
– 実機制御に用いる方策は親方策からの蒸留によって獲得する
14
2.の詳細 親方策の学習
シミュレータ内でリッチな環境情報を入力に強化学習する
• 学習アルゴリズム
– TRPO
• 入力情報
– e n c o d e r
• !"(リッチな情報)
– MLP
• #"(ロボットの状態), $"(潜在表現)
• NN構造
– MLP(encoder) + MLP
15
2.の詳細 親方策の学習
• TRPOの報酬関数
• 報酬関数の内容とお気持ち
– !"#: 機体の座標系方向の速度に対する報酬
• 速いほど良い
– !$#: 各関節の回転速度に対する報酬
• 速いほど良い
– !%: 機体の移動方向に対する報酬
• 機体の⽅向が安定しているほど良い
– !%&: 機体のbodyと地盤の衝突に対する報酬
• 衝突しない⽅が良い
– !': 理想軌道に対する報酬
• 理想軌道がスムーズな⽅が良い
– !(: 関節トルクに対する報酬
• トルクが少ない⽅が良い
16
2.の詳細 子方策の学習
親方策を用いてEncoderの教師あり学習を行う
• Encoder学習アルゴリズム
– 誤差関数
• 入力情報
– e n c o d e r
• ℎ"
– MLP(親方策と同じ)
• NNの構造
– TCN(Encoder) + MLP
17
(補足) TCN
• 時系列情報を表現するネットワーク
18
https://arxiv.org/abs/1803.01271
3. カリキュラム学習
• RL学習を用いて、歩行性能が高く、汎
化性 能も高い方策を学習するためには
、簡単で も難しくもない環境で学習す
ることが重要 であると主張した。
• 粒子フィルタを用いて学習環境を更新しつ
つ制御方策を学習する学習する手法を提案
した。
• 学習環境の地盤形状のパラメータを粒子
フィルタで用いて更新する
19
3.詳細 アルゴリズムの詳細
" ,$• 推定したい値は、!%
• 観測確率は
– 0.5, 0.9は、ハイパーパラメータ
• 地盤形状の望ましさ&'(!" , ))は、
• ここで、追従可能度合い&+(!", ))と評価関数, は、
20
(補足) アルゴリズムフロー
•
21
(補足) 学習時間
•
22
実験設定
• 概要
– 屋外・屋内の環境で人の制御信号(進行方向と回転方向)に従ってロボットを歩
行させる
– ロボットは複数の世代のANYmalを用いる
• 評価指標: cost of transport
– 制御の効率性を評価する指標
– !: 関節のトルク
– #̇: 関節速度
– $%: 総重量
– ' : 移動速度
23
ベースライン
• アクチェエータのモデリングによって、経路
生成・非線形最適化によって制御信号を出力
する
24https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/221541/bellicoso-ral.pdf?sequence=8&isAllowed=y
実験設定
•
25屋外の環境 屋内の環境
実験結果 定量評価
• ベースラインよりも効率よく移動できていることが示された
26
実験結果
• 失敗の少なさ、速度の安定性、姿勢の誤差のすべてでBas e lin eを上
回った
27
Ablation study
28
1. TCNの入力ステップ数
2. 方策の蒸留
3. カリキュラム学習
Ablation1. TCNの入力ステップ数
• 入力ステップ数を増やせば増やすほど性能が向上する。
– 実機適用時のステップ数は1 0 0
– 1 0 0 よりも大きい値との比較はなかった。
29
Ablation2. 方策の蒸留
• 方策の蒸留を用いることで性能が向上することを確認した。
30
Ablation3. カリキュラム学習
• カリキュラム学習によって性能が向上することを確認した。
31
環境への適応性についての実験
• 潜在表現からリッチな環境情報をDe c o d e して、地盤形状と足周辺の
状態の不確実度が、現実挙動と合致しているようにみえる
• 枕木(?)に衝突することで、状態の不確実度が変化している。
– 赤丸: 足周辺の土形状、青丸: 足の先端の位置、赤の三角: 状態の不確実度
32
まとめ
33
• Sim 2 Re alを用いて、4 足歩行ロボットの制御方策を学習し、実機で
も汎化性能を確認した。
• visionなど外部センサを利用せずに制御を行った。
所感
34
• Sim 2 Re alでうまくいく問題設定・アーキテクチャの設計が素晴らし
いと思う
• Boston Dynamicsのs p o t は、おそらく学習を使わずに動くコント
ローラをつくりあげている
• RLのタスクとして、他のタスクと比べて4 足歩行がどの程度難し
いも のなのかいまいちわからず..
参考文献
35
• Learning quadrupedal locomotion over challenging terrain
– https://robotics.sciencemag.org/content/ 5/47/eabc5986/tab-figures -
data
• An empirical evaluation of generic convolutional a n d recurrent
networks for s e q u e n c e modeling
– https://arxiv.org/abs/ 1803.01271
• A Reactive Controller Framework for Quadrupedal Locomotion
on Challenging Terrain
– https://iit-dlslab.github.io/papers/barasuol13icra.pdf
• Dynamic locomotion through online nonlinear motion
optimization for quadrupedal robots
– https://www.research-
collection.ethz.ch/bitstream/handle/ 20.500.11850/221541/bellicoso-
ral.pdf?sequence=8&isAllowed=y

Contenu connexe

Tendances

Tendances (20)

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
[DL輪読会] off-policyなメタ強化学習
[DL輪読会] off-policyなメタ強化学習[DL輪読会] off-policyなメタ強化学習
[DL輪読会] off-policyなメタ強化学習
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
 
モダリティ変換と画像生成 SSII OS2 マルチモーダル深層学習
モダリティ変換と画像生成 SSII OS2 マルチモーダル深層学習モダリティ変換と画像生成 SSII OS2 マルチモーダル深層学習
モダリティ変換と画像生成 SSII OS2 マルチモーダル深層学習
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 

Similaire à [DL輪読会]Learning quadrupedal locomotion over challenging terrain

Similaire à [DL輪読会]Learning quadrupedal locomotion over challenging terrain (8)

[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics
[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics
[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics
 
ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
Lucene/Solr Revolution 2016 参加レポート
Lucene/Solr Revolution 2016 参加レポートLucene/Solr Revolution 2016 参加レポート
Lucene/Solr Revolution 2016 参加レポート
 
動物とロボットの空間ナビゲーション
動物とロボットの空間ナビゲーション動物とロボットの空間ナビゲーション
動物とロボットの空間ナビゲーション
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Learning quadrupedal locomotion over challenging terrain