SlideShare une entreprise Scribd logo
1  sur  18
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
ViNG: Learning Open-World Navigation with
Visual Goals
Jumpei Arima
書誌情報
• タイトル:ViNG: Learning Open-World Navigation with Visual Goals
• 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine
– UC Berkeley, Carnegie Mellon University
• arxiv : https://arxiv.org/abs/2012.09812
• project page : https://sites.google.com/view/ving-robot
• 概要
– Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案
– BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで
より長距離のナビゲーションが可能になった
2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
Introduction
3
• 実世界でのNavigation研究
– 1980年後半頃から研究が盛んになる
– 2000年代にSLAM、Planningの技術が確立してくる
• 現在の自動運転のベース
• LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う
• 幾何学的情報から障害物を判断できる前提がある。
– 高い草は実際は通れる。
– 同じ地面でも芝の上は通ってほしくない。
など、車道以外の実世界での課題は多い
• 2016年頃から、深層学習ベースの手法が多く研究されるようになる。
– RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている
– 一方長距離のナビゲーションの学習はほぼできていない。
Related Works
• Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク
に対処する手法がここ数年出てきた。
– 短期的なナビゲーションを学習ベースで対応
– 長期的なナビゲーションはnon-metricなトポロジカルグラフを
planningすることで対応
→マップ作成とEnd2Endでの学習を回避することができた。
– 正確なシミュレータを必要とする
– grip worldなど簡易的な行動空間
– オンラインデータを必要とする学習アルゴリズム
4
問題設定
5
• ビジュアルナビゲーション
– 画像によるゴール指定
– Open-World環境
– 自己教師あり
– シミュレーションなし
– オンラインデータなし
– 空間情報なし
• アプリケーション
– 配達
– 警備
Proposed Method
6
• 2つの画像間の
– Traversability function(T ): ナビゲーションの走破可能性
– Relative pose predictor(P ): 相対位置
をDNNでモデル化し学習する。
• T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成
• WaypointからP を用いてコントロール
Proposed Method
• Traversability fuction(T )の学習
観測間が走破可能かを予測
1. 教師あり学習
• 観測間のステップ数を予測
• データ収集方策に依存するため、過大評価す
る可能性がある
2. TD学習
• 本研究の実験ではあまり効果なし
• 理論的には最短経路距離に収束する
※Key idea (Negative Mining)
• 分布シフトに対応するため
異なる軌跡からとった観測をデータ
セットに追加して学習
7
Traversability fuction(T )
• Mobilenet encoder + FC*3
• ステップ数d(1,2,…,dmax)
– dmax=50
• 交差エントロピーloss
Proposed Method
• Relative pose predictor(P )の学習
観測間の相対位置を予測
– 教師あり学習
• オドメトリ情報から自動でラベル付け
– Traversability functionと違い
negative miningをしない
(D+のデータのみを用いる)
8
Relative pose predictor(P )
• Mobilenet encoder + FC*3
• (Δx, Δy, Δθ ) を予測
• L2 loss
Proposed Method
• Deploying ViNG
1. 観測データから学習したT を使って
トポロジカルグラフを生成
※Key idea (Graph pruning)
データ数に応じて二次関数的にノードが増加す
るのでT を使って疎にする
→走破可能なエッジは追加されない
2. 現在の観測とゴール観測をグラフに追加し
Dijkstra法でPlanning
3. waypointの相対位置をP を使って算出
4. 相対位置に向かってPD制御で移動 9
Experiments
提案手法(ViNG)の性能を示すため以下の3つを検証する
1. ViNGが他のofflineデータから学習する他の
Goal-conditioned Visual Navigation手法に比べて性能がどうか?
2. ViNGが未知環境に対応できるか。
また、どのくらいで適応できるようになるか?
3. ViNGの他のControllerと比べて性能がどうか?
10
Experiments
比較手法
• SPTM:
– Semi-Parametric Topological Memory for Navigation(ICLR2018)
– 密なトポロジカルグラフと観測から行動の出力するController
– 教師あり学習
• off-SoRB:
– Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン
– RL
• State Estimator
– naïve base line
– 観測から位置を教師あり学習で予測
• Random
11
Experiments
• Dataset
– 約40時間の走行データ
– 実験時はデータ収集時から10ヶ月経っているので
外観が異なる
– simのデータはなし。全て実世界
12
Experiments
13
• ViNGの性能評価(datasetと同じ環境)
• dataset時と季節が違うがViNGは距離が長くても高い成功率
• State Estimateは障害物を考慮しないので障害物があるとぶつかる
• off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる
– offlineデータからQ関数を学習するのは困難
– 長い距離では、教師あり学習のSPTMの方が優れている
Experiments
14
• ViNGの未知環境での適応力
– datasetと違う環境4箇所で、1時間のデータ収集しFinetune
• 1時間のデータ収集で適応可能
• Targetデータだけでは精度は下がる
Experiments
15
• Online手法の比較
– online情報を必要とする手法と比較
するためsim(unity)で実験
– ViNGとSoRBは同等の性能が出るが
200時間のonlineデータが必要でかつ
環境ごとに集める必要がある
– PPOは200時間のオンラインデータが
必要だが、30m以降精度が落ちる
(長距離は困難)
Experiments
16
• Application
Conclusion
• 実世界でのgoal-directed visual navigationシステムViNGを提案。
– オフラインデータから自己教師で学習
– 空間情報がなし、シミュレーションなし
– 分布シフトに対応するためのnegativeサンプリングの導入
– トポロジカル上のplanningでGPSなしで長距離navigationを可能になった
– 本手法は、staticなオフラインデータが前提だが
実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…)
– 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる
17
感想
• 問題設定が上手
– Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対
応する
• “Model-Based Visual Planning with Self-Supervised Functional Distances”
(https://arxiv.org/abs/2012.15373v1)とか関係してきそう
– 一方オフラインデータから学習するというモチベーションがぶれていない
• End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現
している研究が多くなってきた印象。
– いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか
• 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの
standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果
• 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安
定性など見ると良いと思ってしまう
18
*https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing

Contenu connexe

Tendances

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiMasaki Hayashi
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 
LiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせLiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせTakuya Minagawa
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...Deep Learning JP
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based ModelDeep Learning JP
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A SurveyAkira Taniguchi
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理Atsushi Nukariya
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...yukihiro domae
 

Tendances (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
LiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせLiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせ
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]ViNG: Learning Open-World Navigation with Visual Goals

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ ViNG: Learning Open-World Navigation with Visual Goals Jumpei Arima
  • 2. 書誌情報 • タイトル:ViNG: Learning Open-World Navigation with Visual Goals • 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine – UC Berkeley, Carnegie Mellon University • arxiv : https://arxiv.org/abs/2012.09812 • project page : https://sites.google.com/view/ving-robot • 概要 – Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案 – BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで より長距離のナビゲーションが可能になった 2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
  • 3. Introduction 3 • 実世界でのNavigation研究 – 1980年後半頃から研究が盛んになる – 2000年代にSLAM、Planningの技術が確立してくる • 現在の自動運転のベース • LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う • 幾何学的情報から障害物を判断できる前提がある。 – 高い草は実際は通れる。 – 同じ地面でも芝の上は通ってほしくない。 など、車道以外の実世界での課題は多い • 2016年頃から、深層学習ベースの手法が多く研究されるようになる。 – RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている – 一方長距離のナビゲーションの学習はほぼできていない。
  • 4. Related Works • Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク に対処する手法がここ数年出てきた。 – 短期的なナビゲーションを学習ベースで対応 – 長期的なナビゲーションはnon-metricなトポロジカルグラフを planningすることで対応 →マップ作成とEnd2Endでの学習を回避することができた。 – 正確なシミュレータを必要とする – grip worldなど簡易的な行動空間 – オンラインデータを必要とする学習アルゴリズム 4
  • 5. 問題設定 5 • ビジュアルナビゲーション – 画像によるゴール指定 – Open-World環境 – 自己教師あり – シミュレーションなし – オンラインデータなし – 空間情報なし • アプリケーション – 配達 – 警備
  • 6. Proposed Method 6 • 2つの画像間の – Traversability function(T ): ナビゲーションの走破可能性 – Relative pose predictor(P ): 相対位置 をDNNでモデル化し学習する。 • T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成 • WaypointからP を用いてコントロール
  • 7. Proposed Method • Traversability fuction(T )の学習 観測間が走破可能かを予測 1. 教師あり学習 • 観測間のステップ数を予測 • データ収集方策に依存するため、過大評価す る可能性がある 2. TD学習 • 本研究の実験ではあまり効果なし • 理論的には最短経路距離に収束する ※Key idea (Negative Mining) • 分布シフトに対応するため 異なる軌跡からとった観測をデータ セットに追加して学習 7 Traversability fuction(T ) • Mobilenet encoder + FC*3 • ステップ数d(1,2,…,dmax) – dmax=50 • 交差エントロピーloss
  • 8. Proposed Method • Relative pose predictor(P )の学習 観測間の相対位置を予測 – 教師あり学習 • オドメトリ情報から自動でラベル付け – Traversability functionと違い negative miningをしない (D+のデータのみを用いる) 8 Relative pose predictor(P ) • Mobilenet encoder + FC*3 • (Δx, Δy, Δθ ) を予測 • L2 loss
  • 9. Proposed Method • Deploying ViNG 1. 観測データから学習したT を使って トポロジカルグラフを生成 ※Key idea (Graph pruning) データ数に応じて二次関数的にノードが増加す るのでT を使って疎にする →走破可能なエッジは追加されない 2. 現在の観測とゴール観測をグラフに追加し Dijkstra法でPlanning 3. waypointの相対位置をP を使って算出 4. 相対位置に向かってPD制御で移動 9
  • 10. Experiments 提案手法(ViNG)の性能を示すため以下の3つを検証する 1. ViNGが他のofflineデータから学習する他の Goal-conditioned Visual Navigation手法に比べて性能がどうか? 2. ViNGが未知環境に対応できるか。 また、どのくらいで適応できるようになるか? 3. ViNGの他のControllerと比べて性能がどうか? 10
  • 11. Experiments 比較手法 • SPTM: – Semi-Parametric Topological Memory for Navigation(ICLR2018) – 密なトポロジカルグラフと観測から行動の出力するController – 教師あり学習 • off-SoRB: – Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン – RL • State Estimator – naïve base line – 観測から位置を教師あり学習で予測 • Random 11
  • 12. Experiments • Dataset – 約40時間の走行データ – 実験時はデータ収集時から10ヶ月経っているので 外観が異なる – simのデータはなし。全て実世界 12
  • 13. Experiments 13 • ViNGの性能評価(datasetと同じ環境) • dataset時と季節が違うがViNGは距離が長くても高い成功率 • State Estimateは障害物を考慮しないので障害物があるとぶつかる • off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる – offlineデータからQ関数を学習するのは困難 – 長い距離では、教師あり学習のSPTMの方が優れている
  • 14. Experiments 14 • ViNGの未知環境での適応力 – datasetと違う環境4箇所で、1時間のデータ収集しFinetune • 1時間のデータ収集で適応可能 • Targetデータだけでは精度は下がる
  • 15. Experiments 15 • Online手法の比較 – online情報を必要とする手法と比較 するためsim(unity)で実験 – ViNGとSoRBは同等の性能が出るが 200時間のonlineデータが必要でかつ 環境ごとに集める必要がある – PPOは200時間のオンラインデータが 必要だが、30m以降精度が落ちる (長距離は困難)
  • 17. Conclusion • 実世界でのgoal-directed visual navigationシステムViNGを提案。 – オフラインデータから自己教師で学習 – 空間情報がなし、シミュレーションなし – 分布シフトに対応するためのnegativeサンプリングの導入 – トポロジカル上のplanningでGPSなしで長距離navigationを可能になった – 本手法は、staticなオフラインデータが前提だが 実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…) – 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる 17
  • 18. 感想 • 問題設定が上手 – Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対 応する • “Model-Based Visual Planning with Self-Supervised Functional Distances” (https://arxiv.org/abs/2012.15373v1)とか関係してきそう – 一方オフラインデータから学習するというモチベーションがぶれていない • End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現 している研究が多くなってきた印象。 – いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか • 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果 • 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安 定性など見ると良いと思ってしまう 18 *https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing