Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Can increasing input dimensionality improve deep reinforcement learning?

Can increasing input dimensionality improve deep reinforcement learning?

  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

Can increasing input dimensionality improve deep reinforcement learning?

  1. 1. Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? 北海道大学 大学院 情報科学院 調和系工学研究室 修士課程1年 大江 弘峻
  2. 2. 1論文情報 • Kei Ota1, Tomoaki Oiki1, Devesh K. Jha2, Toshisada Mariyama1, Daniel Nikovski2 – 1Mitsubishi Electric Corporation – 2Mitsubishi Electric Research Laboratory • International Conference on Machine Learning (ICML 2020) • 論文 https://arxiv.org/abs/2003.01629 • スライド発表(SlidesLive) https://slideslive.com/38928117/can-increasing-input- dimensionality-improve-deep-reinforcement-learning • コード https://www.merl.com/research/license/OFENet
  3. 3. 2概要 • 連続値制御のタスクにおいて高次元な状態表現を学習 することによって有益な探索空間を獲得 • 元の観測表現より高次元な状態表現を学習させる表現獲 得用ネットワーク(OFENet)を提案 • MuJoCoの連続値制御タスクにおいてスコアを改善
  4. 4. 3導入 – 連続値制御タスクの探索空間 • 物理演算の制御を行う連続値制御のタスクは、探索空間 (入力状態)が小さい Walker2d-v2(MuJoCo)の入力次元: 17 Breakout(Atari-57)の入力次元: 84 × 84 × 4 = 28,224
  5. 5. 4関連研究: ML-DDPG • 観測状態を学習させるネットワークをDDPGに追加 • 内部表現 𝒁 𝒐 𝒕 をDDPGの入力に使用 • ネットワークは次内部表現 𝒁 𝒐 𝒕+𝟏 と報酬 𝒓 𝒕+𝟏を予測 𝐿 𝑚 = 𝑍 𝑜 𝑡+1 − 𝑍 𝑜 𝑡+1 2 + 𝜆 𝑚 𝑟𝑡+1 − 𝑟𝑡+1 2 • ただ、𝒁 𝒐 𝒕 の大きさは 𝒐 𝒕 の1/3となっている(圧縮) 𝒐 𝒕 FC 𝒁 𝒐 𝒕 𝒂 𝒕 concat FC FCFC 𝒁 𝒐 𝒕+𝟏 𝒓 𝒕+𝟏
  6. 6. 5OFENet(提案手法) • 補助タスク(次状態の予測)を学習させることによって、 高次元の状態表現の獲得を行うネットワーク • 高次元の状態表現 𝒁 𝒐 𝒕 と 𝒁 𝒐 𝒕,𝒂 𝒕 を学習 𝝓 𝒐 State Feature Extractor 𝝓 𝒐,𝒂 State-Action Feature Extractor 𝒐 𝒕 𝒁 𝒐 𝒕 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕 π Policy Network 𝒁 𝒐 𝒕 𝒂 𝒕 𝑸 Value Function Networks 𝑸 𝒐 𝒕, 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕
  7. 7. 6補助タスクの学習 • 次状態を予測するためのモジュール 𝑓predを追加 • パラメータ 𝜽 𝐚𝐮𝐱 = {𝜽 𝝓 𝒐 , 𝜽 𝝓 𝒐,𝒂 , 𝜽 𝐩𝐫𝐞𝐝} を以下の損失関数 で最適化 𝐿 𝑎𝑢𝑥 = 𝔼 𝑜 𝑡,𝑎 𝑡 ~𝑝,𝜋 𝑓pred 𝑍 𝑜 𝑡,𝑎 𝑡 − 𝑜𝑡+1 2 𝝓 𝒐 State Feature Extractor 𝝓 𝒐,𝒂 State-Action Feature Extractor 𝒐 𝒕 𝒁 𝒐 𝒕 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕 𝒇 𝐩𝐫𝐞𝐝 Linear Network 𝒐 𝒕+𝟏 𝜽 𝝓 𝒐 𝜽 𝝓 𝒐,𝒂 𝜽 𝐩𝐫𝐞𝐝
  8. 8. 7OFENetを使用した強化学習の流れ • オンライン学習によってRLモデルと同時に学習 • 学習するバッチは異なる
  9. 9. 8実験① 最適なアーキテクチャの調査 • 補助タスクと実際のタスク(報酬の最大化)を使って最適な OFENetのアーキテクチャを調査 – 層同士の接続方法: 𝐌𝐋𝐏, 𝐌𝐋𝐏 𝐑𝐞𝐬𝐍𝐞𝐭, 𝐌𝐋𝐏 𝐃𝐞𝐧𝐬𝐞𝐍𝐞𝐭 – 層の数: MLPの場合 nlayers ∈ {1, 2, 3, 4}、それ以外 nlayers∈ {2, 4, 6, 8} – 活性化関数: 𝐑𝐞𝐋𝐔, 𝐭𝐚𝐧𝐡, 𝐋𝐞𝐚𝐤𝐲 𝐑𝐞𝐋𝐔, 𝐬𝐰𝐢𝐬𝐡, 𝐒𝐄𝐋𝐔 • 補助スコアの測定: ランダムに収集した100kの遷移を訓練に、 20kを評価に使用 • 実スコアの測定: 500kステップ学習したSACの報酬を使用 FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP Net FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP ResNet FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP DenseNet concat concat
  10. 10. 9実験① 結果 • 補助スコアは小さい方が良く、実スコアは大きい方が良い • MLP-DenseNetがどの組み合わせでも良いスコアを獲得 • アーキテクチャによって性能が大きく変化
  11. 11. 10実験② 様々なRLアルゴリズムとタスクで比較 • MuJoCoの連続値制御タスクを学習 • 使用する強化学習アルゴリズム – SAC – TD3 – PPO • 以下の手法を比較 – 従来手法ML-DDPGをSACに変更したモデル – 上記の強化学習アルゴリズムに対してOFENetの有無 オフポリシー オンポリシー Hopper-v2 Walker2d-v2 HalfCheetah-v2 Ant-v2 Humanoid-v2
  12. 12. 11実験② 結果 • ほとんどの場合においてスコアが改善 – OFENetはRLにとって有益な特徴を学習可能
  13. 13. 12Ablation study – OFENetの有無 • SACをAnt-v2で学習 • 単純にSACのパラメータを増やしただけではスコアは 大きく改善しない
  14. 14. 13Ablation study – Batch-Normalization • SACをAnt-v2で学習 • Batch-Normalizationがオンライン学習中に変化する入力 分布の影響を抑制
  15. 15. 14Ablation study – 補助タスクとオンライン学習 • SACをAnt-v2で学習 • 実タスク(報酬の最大化)では高次元表現の獲得が不可 • オンライン学習によって新たな遷移に対応
  16. 16. 15出力表現の大きさに関する比較 • HalfCheetah-v2におけるSAC(OFE)で比較 • 大きすぎても、小さすぎても良くない
  17. 17. 16まとめ • 提案手法OFENetによって高次元で有益な表現の獲得に 成功 • OFENetを単純に追加するだけで性能の改善が可能 – 元のRLアルゴリズムのパラメータのチューニングが不要 • 今後は高次元入力に対する学習を検討

×