SlideShare une entreprise Scribd logo
1  sur  48
強化学習と逆強化学習を組み合わせた
模倣学習
内部英治
国際電気通信基礎技術研究所
脳情報研究所 ブレインロボットインタフェース研究室
自己紹介: 内部英治
• 株式会社国際電気通信基礎技術研究所(ATR)
脳情報研究所 ブレインロボット
インタフェース研究室 主幹研究員
• 経歴
– 1999年 大阪大学大学院工学研究科電子制御機械工学専攻 博士(工学)
https://researchmap.jp/uchibe/ 参照
– 2015年より現職
• 研究テーマ
– 強化学習とロボティクスへの応用
– 計算論的神経科学
強化学習とは
• 試行錯誤を通して方策(行動ルール)
を学ぶ人工知能技術
• 囲碁のチャンピオンに勝利したアルファ碁は
強化学習とディープラーニングの組み合わせ
ロボットなどの制御へ応用
• ヒトや動物の意思決定のモデルとしても
注目
脳科学の観点からの説明
[Nature Blog. The Go Files: AI
computer wraps up 4-1 victory …]
(Doya, 2007)
目的関数
(報酬)
強化学習
方策
(行動ルール)
強化学習における報酬・行動価値・方策
• 報酬𝑟 𝑠, 𝑎 : 状態𝑠で行動𝑎を選択・実行した時の評価値
• 行動価値𝑄 𝑠, 𝑎 : 状態𝑠で行動𝑎を実行した後で将来得られる総報酬
– 𝛾:将来得られる報酬を割り引く率
• 方策𝜋 𝑎 𝑠 : 状態𝑠で行動𝑎を
選択する確率
環境
状態𝑠
行動𝑎
報酬𝑟(𝑠, 𝑎)内部状態
学習率𝛼
逆温度𝛽
割引率𝛾
行動
𝑎2𝑎1
行動価値𝑄
𝑄 𝑠, 𝑎 ≜ 𝔼 𝜋 ቤ෍
𝑘=0
∞
𝛾 𝑘
𝑟(𝑠𝑡+𝑘+1, 𝑎 𝑡+𝑘+1) 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎
報酬設計の困難さ
• 状態𝑠における行動𝑎の即時評価で
ある報酬を準備する必要がある
• 囲碁の場合
– 勝敗に応じて正または負の報酬
– 対戦中に与えられる報酬は0
• AlphaGo Zero (Silver et al., 2017)は3日間で
490万回,40日間で2900万回の自己対戦
によって方策を獲得
• 膨大な学習データを必要とするため
シミュレータの利用が不可欠
スパースでない報酬を使ったら
どうなるか
柔軟物の操作の学習における報酬
• エントロピ正則された強化学習(Deep Dynamic Policy Programming)
• シミュレータの使用なしで学習
Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2017). Deep dynamic policy programming for robot control
with raw images. In Proc. of IROS.
シャツの折り畳みの場合
実用的な報酬を準備するのは
難しい
Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2019). Deep reinforcement learning with smooth policy
update: Application to robotic cloth manipulation. Robotics and Autonomous Systems, 112: 72-83.
視覚情報を使った移動ロボットの行動
• タスク: 電池パックを捕獲
• 2種類の報酬関数: rorig and raug
• バランスによって電池パックを見続けることが
最適行動
𝑟origのみで学習
𝑟orig + 𝑤𝑟auxで学習
𝑟orig = ቐ
+1
−0.05
0 目標角度
現在角度
𝑟aux = exp −
𝜃 − 𝜃 𝑑
2
2𝜎2
電池を捕獲したとき
移動したとき
それ以外
Uchibe, E. & Doya, K. (2008). Finding intrinsic rewards by embodied evolution and constrained reinforcement
learning. Neural Networks, 21(10): 1447-55.
逆強化学習とは
• 単純な報酬を使うと膨大な学習データと計算時間が必要
• 詳細な報酬を事前に設計するのは
困難
意図とは異なる行動を学習
• 熟練者の行動データをもとに
報酬を推定する技術が逆強化学習
– 不良設定問題 [OpenAI Blog. Faulty Reward …] [Sorta Insightful (Blog)]
目的関数
(報酬)
強化学習
逆強化学習
制御則または熟練者からの
行動データ
逆強化学習の応用 (1/2)
卓球の動作解析 (Mueling et al., 2014) 線虫の温度走性行動の解析 (Yamaguchi et al., 2018)
模倣学習によるロボット制御 (Finn et al., 2016) 海鳥の飛行経路の予測 (Hirakawa et al., 2018)
逆強化学習の応用 (2/2)
ナビゲーション (Wulfmeier, et al. 2017) 広告スケジューリング業務の自動化 (Suzuki et al., 2019)
危険予知運転モデリング (Shimosaka et al., 2014) 逆強化学習の脳内表現 (Collette et al., 2017)
模倣学習との関係
• エキスパートから与えられた状態行動対
𝒟 𝐸 = 𝑠𝑖, 𝑎𝑖 から方策を直接推定
• 例: 最大事後確率(MAP)推定による定式化
– 𝜋(𝑎 ∣ 𝑠, 𝜽): パラメータ𝜽を持つ確率的方策
– 𝑝(𝑠 ∣ 𝜽): 𝜋によって決定される状態分布
• ln 𝑝 𝑠 𝜽 の勾配推定は一般に困難で無視することが多い
行動クローニング(Behavior Cloning, BC)
arg max
𝜽
ln 𝑝(𝜽 ∣ 𝒟 𝐸
) =arg max
𝜽
ൣln 𝑝(𝜽)
቉+ ෍
𝑠,𝑎 ∈𝒟 𝐸
ln 𝜋(𝑎 ∣ 𝑠, 𝜽) + ෍
𝑠∈𝒟 𝐸
ln 𝑝(𝑠 ∣ 𝜽)
Morimura, T., Uchibe, E., Yoshimoto, J., Peters, J., & Doya, K. (2010). Derivatives of logarithmic stationary
distributions for policy gradient reinforcement learning. Neural Computation 22(2): 342–76.
Schroecker, Y. & Isbell, C. (2017). State Aware Imitation Learning. NIPS 30.
(hrl-olddesign.informatik.uni-freiburg.de)
行動クローニングの問題点
• エキスパートと学習者の状態行動分布は異なる(共変量シフト)
• 行動し続けることで誤差が蓄積し,エキスパートの分布から逸脱
– 元の分布に戻る手段がない
Ross, S. & Bagnell, J.A. (2010). Efficient Reductions for Imitation Learning. In Proc. of AISTATS, 9:661–668.
Osa, T., Pajarinen, J., Neumann, G., Bagnell, J.A., Abbeel, P.A., & Peters, J. (2018). An Algorithmic Perspective on
Imitation Learning. Foundations and Trends in Robotics 7, no. 1–2, 1–179.
敵対的生成ネットワーク(Generative Adversarial
Network; GAN)
• 生成器(Generator)と識別器(Discriminator)の競合によって
データを生成するモデル
https://deephunt.in/the-gan-zoo-79597dc8c347
識別器𝐷(𝑥)生成器𝐺(𝑧)
識別器𝐷(𝑥)
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014).
Generative Adversarial Nets. NeurIPS 27, 2672–2680.
Generative Adversarial Imitation Learning (GAIL)
• 模倣学習を敵対的生成ネットワーク(GAN)として定式化
• 近年の模倣学習でベースラインとなる論文
• 生成器が(確率的)方策と
環境(シミュレータ)の
組み合わせ
• 識別器𝐷(𝑠, 𝑎)から推定報酬を
計算
Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.
GAILの目的関数
• 𝐷(𝑠, 𝑎)は𝑠が実データか生成されたデータかを判定する
• 目的関数
–
• 𝔼 𝑠,𝑎 ∼𝜋 𝐸 ⋅ は未知のエキスパート方策𝜋 𝐸(𝑎 ∣ 𝑠)のもとで得られる
定常状態行動分布のもとでの期待値
– 𝔼 𝑠,𝑎 ∼𝜋[⋅]も同様
min
𝜋
max
𝐷
𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 ln 𝐷 𝑠, 𝑎 − 𝜆ℋ(𝜋)
𝐷 𝑠, 𝑎 = ൝
1 (𝑠, 𝑎)が学習者が生成データの場合
0 (𝑠, 𝑎)がエキスパートデータの場合
𝜋 𝐸
𝑠, 𝑎 = 𝜋 𝐸
(𝑎 ∣ 𝑠) ෍
𝑡=0
∞
𝛾 𝑡
𝑃 𝑠𝑡 = 𝑠 𝜋 𝐸
識別器と生成器の目的関数
• 識別器の学習はGANと同様に二値分類問題
• 生成器の目的関数
– 識別器から計算される報酬を使って通常の強化学習を実行して
方策𝜋を求める
– 任意のアルゴリズムが使用できるが,オリジナルではTrust Region Policy
Optimization (Schulman, et al., 2015)を使用
max
𝐷
𝐽 𝐷 𝐷 , 𝐽 𝐷(𝐷) = 𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎
min
𝜋
𝐽 𝜋
𝜋 , 𝐽 𝜋
𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎
max
𝜋
𝔼 𝑠,𝑎 ∼𝜋 𝐿 𝑟 𝑠, 𝑎 𝑟 𝑠, 𝑎 = − ln 𝐷 𝑠, 𝑎
エキスパートデータ数に対する性能比較
Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.
GAILの様々な拡張
• 行動が観測できない場合への対応
– IRLGAN (Henderson et al., 2018), AGAIL (Sun & Ma, 2019),
GAIfO (Torabi, et al., 2019)
• マルチタスクへの応用
– OptionGAN (Henderson et al., 2018), InfoGAIL (Li, et al., 2017)
• サンプル効率の改善
– DAC (Kostrikov, et al., 2019), (Sasaki et al., 2019), SAM (Blondé & Kalousis, 2019)
• モデルベース
– MGAIL (Baram et al., 2017)
• 識別器の構造化
– AIRL (Fu, et al., 2018)
GAILの問題点
• 少量のエキスパートデータから模倣行動を実現
– 単純な模倣(Behavior Cloning)よりも高性能
• 識別器が推定した報酬をもとに通常の方策オン型強化学習に
よって方策を学習するため,環境との相互作用回数に関して
サンプル効率は良くない
– つまり実際に学習方策を用いてデータを大量に生成する必要がある
• 識別器𝐷(𝑠, 𝑎)は構造化されていない
• 推定された報酬は偏りがある
強化学習に基づく模倣学習
• 順強化学習+逆強化学習 → 敵対的模倣学習 (GAIL)
順強化学習のサンプル効率が悪い
エキスパート
方策: 𝜋 𝐸
初期学習
方策: 𝜋0
𝐿
方策𝜋 𝑘
𝐿
の実行
逆強化学習(識別器)
𝑟𝑘, 𝑉𝑘
エキスパートの行動データ: 𝒟 𝐸
𝒟 𝑘
𝐿
順強化学習(生成器)
学習者の
行動データ: 𝒟 𝐿
推定報酬𝑟𝑘と価値関数𝑉𝑘
を使って方策を更新
行動データ𝒟 𝐸, 𝒟 𝐿から
エキスパートの報酬𝑟と
価値関数𝑉を推定
𝜋 𝑘+1
𝐿
順強化学習と逆強化学習が密にカップリングした
敵対的模倣学習を提案
状態価値関数は順逆両方で更新される
生成器と識別器でネットワークの一部を共有する
定式化
• 次のKullback-Leibler (KL)ダイバージェンス最小化を考える
– 𝜋 𝐸
: (未知の)エキスパートの分布,
サンプルだけが与えられる
– 𝜋 𝐿: 学習者の分布
– Τ𝜋 𝐿 𝜋 𝐸は計算できない
• Note: 𝐷KL 𝜋 𝐸 ∥ 𝜋 𝐿 の最小化は
行動クローニング(BC)に対応
𝐽 𝜋 𝐿 = 𝐷KL(𝜋 𝐿 ∥ 𝜋 𝐸) = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln
𝜋 𝐿 𝑠, 𝑎, 𝑠′
𝜋 𝐸 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′
𝜋 𝐸
𝑠, 𝑎, 𝑠′
𝜋∗
𝐿
= arg min 𝐷KL 𝜋 𝐸
∥ 𝜋 𝐿
𝜋∗
𝐿 = arg min 𝐷KL 𝜋 𝐿 ∥ 𝜋 𝐸
提案手法のアイデア
• 対数密度比をサンプルから推定し,近似した目的関数を最小化
– 識別器𝐷 𝑠, 𝑎, 𝑠′
をエントロピ正則化強化学習の理論をもとに構造化
– ロジスティック回帰による密度比推定 逆強化学習
– KLダイバージェンス最小化 順強化学習
𝐽 𝜋 𝐿 = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln
𝜋 𝐿 𝑠, 𝑎, 𝑠′
𝜋 𝐸 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′
≈ න 𝜋 𝐿
𝑠, 𝑎, 𝑠′
ln
𝐷 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′ density ratio trick
[Sugiyama et al., 2012]
内部 (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会 (優秀賞)
Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse reinforcement learning.
Proc. of RLDM.
マルコフ性を利用した密度比の分解
•
• 二つの識別器𝐷 𝑘 𝑠 , 𝐷 𝑘(𝑠, 𝑎, 𝑠′)をロジスティック回帰によって推定
𝐷 𝑘 𝑠
1 − 𝐷 𝑘 𝑠
𝜋 𝐿 𝑠, 𝑎, 𝑠′
𝜋 𝐸 𝑠, 𝑎, 𝑠
=
𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎
𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎
×
𝜋 𝐿 𝑎 𝑠
𝜋 𝐸 𝑎 𝑠
×
𝜋 𝐿 𝑠
𝜋 𝐸 𝑠
𝐷 𝑘 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′
状態遷移確率の比 ベルマン最適方程式
識別器と密度比の関係
• Bayes則
• 対数密度比
– 右辺第2項は 𝒟 𝐿 , 𝒟 𝐸 から計算
(Sugiyama, et al., 2012)
𝐷 𝑠 ≜ Pr(learner ∣ 𝑠) =
Pr 𝑥 learner Pr learner
Pr 𝑠
𝜋 𝐿 𝑠 = Pr(𝑠 ∣ learner)
𝜋 𝐿 𝑠
𝜋 𝐸
𝑠
𝐷 𝑠ln
𝐷(𝑠)
1 − 𝐷(𝑠)
= ln
𝜋 𝐿(𝑠)
𝜋 𝐸(𝑠)
+ ln
Pr learner
Pr expert
エントロピ正則化された強化学習
• 報酬が次の形式で表現されていると仮定
– ℋ(𝜋): 方策𝜋のエントロピ.確率的な探査行動への評価
– KL(𝜋 ∥ 𝜋 𝑘
𝐿
): 方策𝜋 𝑘
𝐿
とのKLダイバージェンス.急激な方策更新に対する罰
– 𝑟𝑘(𝑥): 推定対象となる報酬関数
– 𝜅, 𝜂: メタパラメータ.ノイズ耐性や漸近的性能に影響 (Kozuno et al., 2019)
– 𝜂 → ∞: Soft Q-learning, Soft Actor-Critic (Haarnoja et al., 2018)
– 𝜅 → ∞: Dynamic Policy Programming (Azar et al., 2012)
𝑟 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜅−1ℋ 𝜋 − 𝜂−1 𝐷KL 𝜋 ∥ 𝜋 𝑘
𝐿
Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of softmax and
gap-increasing operators in reinforcement learning. In Proc. of AISTATS.
エントロピ正則された時の
ソフトベルマン方程式
• 最適方策の下での最適状態価値に
関する関係式
• エントロピ正則化されたときの
ベルマン最適方程式
• ラグランジュの未定乗数法により,𝜋に関して最大化が解ける
𝑉∗(𝑠)
𝑉∗(𝑠′)
𝑝 𝑇(𝑠′|𝑠, 𝑎)
𝑠
𝑠′
max
𝑉∗(𝑠) = max
𝜋
෍
𝑎
𝜋(𝑎 ∣ 𝑠) ൥𝑟 𝑠 − 𝜅−1 ln 𝜋 𝑎 𝑠 − 𝜂−1 ln
𝜋(𝑎 ∣ 𝑠)
𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠)
቉+𝛾 ෍
𝑠′
𝑝 𝑇 𝑠′ 𝑠, 𝑎 𝑉∗ 𝑠′
エントロピ正則されたソフトベルマン方程式
• 対数方策比が報酬,状態価値,一ステップ前の方策で表現される
–
• 最適方策を𝜋 = 𝜋 𝐸
としてKLダイバージェンスの計算に利用
1
𝛽
ln
𝜋 𝑎 𝑠
𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠)
= 𝑟𝑘 𝑠 − 𝜅−1
ln 𝜋 𝑘
𝐿
𝑎 𝑠
+𝛾𝔼 𝑠′∼𝑝 𝑇 ⋅∣𝑠,𝑎 𝑉𝑘 𝑠′ − 𝑉𝑘(𝑠)
𝛽 ≜
𝜅𝜂
𝜅 + 𝜂
Uchibe, E. & Doya. K. (2014). Inverse reinforcement learning using Dynamic Policy Programming. In Proc. of
ICDL-EpiRobo, 222–228.
Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural Processing
Letters 47(3): 891–905.
密度比推定問題としての逆強化学習
• ソフトベルマン方程式から導出された識別器の関係
ln
𝐷 𝑘 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′
= ln
𝐷 𝑘(𝑠)
1 − 𝐷 𝑘 𝑠
−𝛽 𝑟𝑘 𝑠 − 𝜅 ln 𝜋 𝑘
𝐺
𝑎 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝐷 𝑘(𝑠, 𝑎, 𝑠′) =
exp 𝛽𝜅−1
ln 𝜋 𝑘
𝐺
𝑎 𝑠
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐺
𝑎 𝑠
𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝑔 𝑘 𝑠 ≜ ln Τ𝐷 𝑘(𝑠) 1 − 𝐷 𝑘 𝑠
ベルマン方程式により構造化された識別器
•
– 𝛽を調整して識別器の性能を制御
– Information Bottleneckとは異なる
識別器の制御(Peng et al., 2019)
• 従来研究との関係
– AIRL (Fu et al., 2018): 𝑔 𝑘 𝑠 = 0
and 𝛽 = 1, 𝜅 = 1
– LogReg-IRL (Uchibe, 2018): 𝜅 = 0
𝐷 𝑘(𝑠, 𝑎, 𝑠′
) =
exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠
𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝜋 𝐿
𝜋 𝐸
KLダイバージェンス最小化としての順強化学習
• 密度比推定の結果を使ってKLダイバージェンスを最小化し,
ベースライン方策を更新
– エントロピ正則化強化学習の目的関数
• 方策オフ型であるSoft Actor-Criticと類似したアルゴリズムによって
状態価値𝑉,行動価値𝑄,方策を学習
– 状態価値は逆強化学習の結果によって初期化
𝜋 𝑘+1
𝐿
= arg min
𝜋 𝐿
𝔼 𝜋 𝐿 ln
𝐷 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑠, 𝑎, 𝑠′
= arg max
𝜋 𝐿
𝔼 𝜋 𝐿 ෍
𝑡
𝛾 𝑡 ෤𝑟 𝑠𝑡, 𝑎 𝑡
GANとの関係
• GAILにおける生成器の目的関数
– 学習初期は𝐺の性能が悪く簡単に識別できるため
ln(1 − 𝐷 𝑠, 𝑎 が飽和
• よく使われる代替案 (Goodfellow et al., 2014)
• 両者の和
ሚ𝐽 𝐺
= 𝔼 𝑠,𝑎 ∼𝜋 𝐿 − ln 1 − 𝐷 𝑠, 𝑎, 𝑠′
min
𝜋
𝐽 𝜋 𝜋 , 𝐽 𝜋 𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎, 𝑠′
ҧ𝐽 𝐺 = 𝐽 𝐺 + ሚ𝐽 𝐺 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln
𝐷 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑠, 𝑎, 𝑠′
修正Soft Actor-Criticによる方策学習
• ソフト最適状態行動価値関数
• ソフト最適状態価値関数
• 最適方策
𝜋∗ 𝑎 𝑠 =
exp 𝛽𝑄∗
𝑠, 𝑎
exp 𝛽𝑉∗ 𝑠
𝑄∗ 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜂−1 ln 𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠) + 𝛾𝔼 𝑝 𝑇
𝑉 𝑠′
𝑉∗
𝑠 =
1
𝛽
ln ෍
𝑎
exp 𝛽𝑄∗
𝑠, 𝑎 = softmax
𝑎
𝑄∗
(𝑠, 𝑎)
実験: MuJoCo制御課題
• タスク: できるだけ早く前進する
• オリジナルの報酬 𝑟𝑡 = 𝑣 𝑡 − 𝑐 𝒂 𝑡 2
– 𝑣 𝑡: 前進速度.𝑐: ロボット固有のパラメータ
• エキスパート方策の準備
– 方策オン型であるTrust Region Policy Optimization (Schulman et al., 2015)を
使って学習
– エキスパート方策からエキスパートデータ𝒟 𝜋を生成
• 提案手法(ERIL)を以下の手法と比較
– BC: 行動クローニング, GAIL
– (Sasaki et al., 2019), DAC: Discriminator-Actor-Critic (Kostrikov et al., 2019),
SAM: Sample-efficient Adversarial Mimic (Blondé, et al., 2019)
エキスパートデータ数の効果
• 提案手法(ERIL)と
従来法は同程度
• BCはデータ数が
少ない場合は
性能は低い
Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning.
環境との相互作用回数の効果
• 順強化学習時の
相互作用の回数
が少ない場合,
提案手法(ERIL)は
従来法よりも性
能が高い
Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning.
実験: ビデオゲーム(Atari)課題
• エキスパートデータ𝒟 𝜋
– 3人の被験者から収集 𝑠𝑡, 𝑎 𝑡
human, 𝑟𝑡, 𝑠𝑡+1
𝑡=1
𝑇
– 𝒟 𝜋 = 𝑠𝑡, 𝑠𝑡+1 𝑡=0
𝑇
: 行動を取り除く
– 状態𝑠はゲーム画面
• 推定された報酬を使って,最初から学習
したときの学習曲線を比較
• 提案手法(ERIL)を以下の手法と比較
– BC,オリジナル報酬からの学習, LogReg-IRL (Uchibe, 2018)
– PI_IOC (Kalakrishnan et al., 2013): 経路積分型逆強化学習
SeaquestSpace Invaders
Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning.
報酬による学習効率の違い
• 推定報酬は学習初期段階において効率を改善
• ゲームによってはオリジナル報酬と同程度
SeaquestSpace Invaders
実験: 人の倒立振り子課題
• タスク: 振り子を振り上げ,3秒間倒立状態を
維持する
• 実験条件:
– 振り子の長さ: long (73 cm), short (29 cm)
– 各振り子ごとに15試行
– 1試行あたり最大40 [s]
– 被験者数: 7 (右利き: 5, 左利き: 2)
– 行動(𝐹𝑥, 𝐹𝑦)は観測されない
• 提案手法(ERIL)を以下の手法と比較
– GAIfO: GAN-based imitation
– C-BC: 条件つき行動クローニング
– LogReg-IRL (Uchibe, 2018):
𝐹𝑥
𝐹𝑦
𝜃
(𝑥, 𝑦)
• State: (𝑥, ሶ𝑥, 𝑦, ሶ𝑦, 𝜃, ሶ𝜃)
• Action: (𝐹𝑥, 𝐹𝑦)
条件つきへの拡張
• 識別器に条件ラベル𝑐を導入
• マルチタスク強化学習で使われる表現
• 𝑉(𝑠, 𝑐): universal value function (Schaul et al., 2015)
𝐷 𝑘(𝑠, 𝑎, 𝑠′
∣ 𝑐) =
exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠, 𝑐
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠, 𝑐
𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 ≜ 𝑟𝑘 𝑠, 𝑐 − 𝛽−1 𝑔 𝑘 𝑠, 𝑐 + 𝛾𝑉𝑘 𝑠′, 𝑐 − 𝑉𝑘 𝑠, 𝑐
被験者行動の復元
• 従来法よりも被験者行動を復元
• C-ERIL vs ERIL: 条件つきにすることで改善
observed trajectories
generated trajectories
まとめ
• エントロピ正則された強化学習に基づく敵対的模倣学習を提案
– 逆強化学習 = 密度比推定による報酬と状態価値の推定
= ロジスティック回帰によるエキスパートと学習者のデータの分類
– 順強化学習 = 近似reverse KLダイバージェンスの最小化
= 方策オフ型のSoft Actor-Criticによる方策と価値関数の更新
• 様々なベンチマーク課題により従来法よりもサンプル効率が良い
ことを示した
– 順・逆強化学習でネットワークを一部共有している
– 順強化学習が方策オフ型で,過去に収集したデータを利用できる
今後の課題
• メタパラメータの調査
– 順強化学習における効果 (Kozuno et al., 2019)
– 逆強化学習でも同様?
• その他の敵対的模倣学習との比較
– Forward KL version of AIRL (Ghasemipour et al., 2019)
– Soft Q Imitation Learning (Reddy et al., 2019)
謝辞
• 本研究の成果は,国立研究開発法人新エネルギー ・ 産業技術総合
開発機構 (NEDO) の委託業務,JST 未来社会創造事業 JPMJMI18B8の
結果得られたものです.また,本研究の一部は JSPS 科研費
JP17H06042,JP19H05001の助成を受けたものです.
References
• Blondé, L., & Kalousis, A. (2019). Sample-Efficient Imitation Learning via Generative Adversarial Nets.
Proc. of the 22nd International Conference on Artificial Intelligence and Statistics, 3138–48.
• Finn, C., Christiano, P., Abbeel, P., and Levine, S. (2016). A Connection Between Generative
Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models. NIPS 2016
Workshop on Adversarial Training.
• Fu, J., Luo, K., and Levine, S. (2018). Learning robust rewards with adversarial inverse reinforcement
learning. In Proc. of ICLR.
• Fujimoto, S., van Hoof, H., & Meger, D. (2018). Addressing Function Approximation Error in Actor-
Critic Methods. Proc. of the 35th International Conference on Machine Learning.
• Henderson, P., Chang, W.-D., Bacon, P.-L., Meger, D., Pineau, J., & Precup, D. (2018). OptionGAN:
Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning.
In Proc. of AAAI.
• Hirakawa, T., Yamashita, T., Tamaki, T., Fujiyoshi, H., Umezu, Y., Takeuchi, I., Matsumoto, S., and
Yoda, K. (2018). Can AI predict animal movements? Filling gaps in animal trajectories using inverse
reinforcement learning. Ecosphere.
References
• Ho, J. and Ermon, S. (2016). Generative adversarial imitation learning. NIPS29.
• Kalakrishnan, M., Pastor, P., Righetti, L., & Schaal, S. (2013). Learning objective functions for
manipulation. In Proc. of ICRA, 1331–1336.
• Kostrikov, I., Agrawal, K.K., Dwibedi, D., Levine, S., & Tompson, J. (2019). Discriminator-Actor-Critic:
Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning. Proc. of the 7th
ICLR.
• Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of
softmax and gap-increasing operators in reinforcement learning. In Proc. of AISTATS.
• Li, Y., Song, J., & Ermon, S. (2017). InfoGAIL: Interpretable Imitation Learning from Visual
Demonstrations. NIPS30.
• Peng, X.B., Kanazawa, A., Toyer, S., Abbeel, P., & Levine, S. (2019). Variational Discriminator
Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow.
In Proc. of the 7th International Conference on Learning Representations. ICLR, 2019.
• Sasaki, F., Yohira, T., & Kawaguchi, A. (2019). Sample Efficient Imitation Learning for Continuous
Control. Proc. of the 7th International Conference on Learning Representations.
References
• Schaul, T., Horgan, D., Gregor, K., & Silver, D. (2015). Universal Value Function Approximators. In Proc.
of ICML, 1312–1320.
• Shimosaka, M., Kaneko, T., & Nishi, K. (2014). Modeling risk anticipation and defensive driving on
residential roads with inverse reinforcement learning. Proc. of the 17th International IEEE Conference
on Intelligent Transportation Systems, 1694–1700.
• Sugiyama, M., Suzuki, T., & Kanamori, T. (2012). Density ratio estimation in machine learning.
Cambridge University Press.
• Sun, M., & Ma, X. (2019). Adversarial Imitation Learning from Incomplete Demonstrations. In Proc. of
IJCAI, 2019.
• Suzuki, Y., Wee, W.M., & Nishioka, I. (2019). TV Advertisement Scheduling by Learning Expert
Intentions. In Proc. of the 25th ACM SIGKDD International Conference on Knowledge Discovery &
Data Mining, pp. 3071–81.
• Torabi, F., Warnell, G., & Stone, P. (2019). Generative Adversarial Imitation from Observation. ICML
2019 Workshop on Imitation, Intent, and Interaction.
• Uchibe, E. & Doya, K. (2014). Inverse reinforcement learning using dynamic policy programming. In
Proc. of ICDL and Epirob.
References
• Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural
Processing Letters, 47(3): 891-905.
• 内部. (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会
予稿集.
• Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning. Proc. of RLDM.
• Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and
inverse reinforcement learning.
• Wulfmeier, M., Rao, D., Wang, D.Z., Ondruska, P., & Posner, I. (2017). Large-scale cost function
learning for path planning using deep inverse reinforcement learning. International Journal of
Robotics Research, vol. 36, no. 10: 1073–1087.
• Yamaguchi, S., Honda, N., Ikeda, M., Tsukada, Y., Nakano, S., Mori, I., and Ishii, S. (2018).
Identification of animal behavioral strategies by inverse reinforcement learning. PLoS Computational
Biology.

Contenu connexe

Tendances

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 

Tendances (20)

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 

Similaire à 強化学習と逆強化学習を組み合わせた模倣学習

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and AveragingYu Otsuka
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析Hirotaka Hachiya
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 

Similaire à 強化学習と逆強化学習を組み合わせた模倣学習 (20)

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
第2回 NIPS+読み会・関西 発表資料 山本
第2回 NIPS+読み会・関西 発表資料 山本第2回 NIPS+読み会・関西 発表資料 山本
第2回 NIPS+読み会・関西 発表資料 山本
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
MIRU MIRU わかる GAN
MIRU MIRU わかる GANMIRU MIRU わかる GAN
MIRU MIRU わかる GAN
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 

強化学習と逆強化学習を組み合わせた模倣学習

  • 2. 自己紹介: 内部英治 • 株式会社国際電気通信基礎技術研究所(ATR) 脳情報研究所 ブレインロボット インタフェース研究室 主幹研究員 • 経歴 – 1999年 大阪大学大学院工学研究科電子制御機械工学専攻 博士(工学) https://researchmap.jp/uchibe/ 参照 – 2015年より現職 • 研究テーマ – 強化学習とロボティクスへの応用 – 計算論的神経科学
  • 3. 強化学習とは • 試行錯誤を通して方策(行動ルール) を学ぶ人工知能技術 • 囲碁のチャンピオンに勝利したアルファ碁は 強化学習とディープラーニングの組み合わせ ロボットなどの制御へ応用 • ヒトや動物の意思決定のモデルとしても 注目 脳科学の観点からの説明 [Nature Blog. The Go Files: AI computer wraps up 4-1 victory …] (Doya, 2007) 目的関数 (報酬) 強化学習 方策 (行動ルール)
  • 4. 強化学習における報酬・行動価値・方策 • 報酬𝑟 𝑠, 𝑎 : 状態𝑠で行動𝑎を選択・実行した時の評価値 • 行動価値𝑄 𝑠, 𝑎 : 状態𝑠で行動𝑎を実行した後で将来得られる総報酬 – 𝛾:将来得られる報酬を割り引く率 • 方策𝜋 𝑎 𝑠 : 状態𝑠で行動𝑎を 選択する確率 環境 状態𝑠 行動𝑎 報酬𝑟(𝑠, 𝑎)内部状態 学習率𝛼 逆温度𝛽 割引率𝛾 行動 𝑎2𝑎1 行動価値𝑄 𝑄 𝑠, 𝑎 ≜ 𝔼 𝜋 ቤ෍ 𝑘=0 ∞ 𝛾 𝑘 𝑟(𝑠𝑡+𝑘+1, 𝑎 𝑡+𝑘+1) 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎
  • 5. 報酬設計の困難さ • 状態𝑠における行動𝑎の即時評価で ある報酬を準備する必要がある • 囲碁の場合 – 勝敗に応じて正または負の報酬 – 対戦中に与えられる報酬は0 • AlphaGo Zero (Silver et al., 2017)は3日間で 490万回,40日間で2900万回の自己対戦 によって方策を獲得 • 膨大な学習データを必要とするため シミュレータの利用が不可欠 スパースでない報酬を使ったら どうなるか
  • 6. 柔軟物の操作の学習における報酬 • エントロピ正則された強化学習(Deep Dynamic Policy Programming) • シミュレータの使用なしで学習 Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2017). Deep dynamic policy programming for robot control with raw images. In Proc. of IROS.
  • 7. シャツの折り畳みの場合 実用的な報酬を準備するのは 難しい Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2019). Deep reinforcement learning with smooth policy update: Application to robotic cloth manipulation. Robotics and Autonomous Systems, 112: 72-83.
  • 8. 視覚情報を使った移動ロボットの行動 • タスク: 電池パックを捕獲 • 2種類の報酬関数: rorig and raug • バランスによって電池パックを見続けることが 最適行動 𝑟origのみで学習 𝑟orig + 𝑤𝑟auxで学習 𝑟orig = ቐ +1 −0.05 0 目標角度 現在角度 𝑟aux = exp − 𝜃 − 𝜃 𝑑 2 2𝜎2 電池を捕獲したとき 移動したとき それ以外 Uchibe, E. & Doya, K. (2008). Finding intrinsic rewards by embodied evolution and constrained reinforcement learning. Neural Networks, 21(10): 1447-55.
  • 9. 逆強化学習とは • 単純な報酬を使うと膨大な学習データと計算時間が必要 • 詳細な報酬を事前に設計するのは 困難 意図とは異なる行動を学習 • 熟練者の行動データをもとに 報酬を推定する技術が逆強化学習 – 不良設定問題 [OpenAI Blog. Faulty Reward …] [Sorta Insightful (Blog)] 目的関数 (報酬) 強化学習 逆強化学習 制御則または熟練者からの 行動データ
  • 10. 逆強化学習の応用 (1/2) 卓球の動作解析 (Mueling et al., 2014) 線虫の温度走性行動の解析 (Yamaguchi et al., 2018) 模倣学習によるロボット制御 (Finn et al., 2016) 海鳥の飛行経路の予測 (Hirakawa et al., 2018)
  • 11. 逆強化学習の応用 (2/2) ナビゲーション (Wulfmeier, et al. 2017) 広告スケジューリング業務の自動化 (Suzuki et al., 2019) 危険予知運転モデリング (Shimosaka et al., 2014) 逆強化学習の脳内表現 (Collette et al., 2017)
  • 12. 模倣学習との関係 • エキスパートから与えられた状態行動対 𝒟 𝐸 = 𝑠𝑖, 𝑎𝑖 から方策を直接推定 • 例: 最大事後確率(MAP)推定による定式化 – 𝜋(𝑎 ∣ 𝑠, 𝜽): パラメータ𝜽を持つ確率的方策 – 𝑝(𝑠 ∣ 𝜽): 𝜋によって決定される状態分布 • ln 𝑝 𝑠 𝜽 の勾配推定は一般に困難で無視することが多い 行動クローニング(Behavior Cloning, BC) arg max 𝜽 ln 𝑝(𝜽 ∣ 𝒟 𝐸 ) =arg max 𝜽 ൣln 𝑝(𝜽) ቉+ ෍ 𝑠,𝑎 ∈𝒟 𝐸 ln 𝜋(𝑎 ∣ 𝑠, 𝜽) + ෍ 𝑠∈𝒟 𝐸 ln 𝑝(𝑠 ∣ 𝜽) Morimura, T., Uchibe, E., Yoshimoto, J., Peters, J., & Doya, K. (2010). Derivatives of logarithmic stationary distributions for policy gradient reinforcement learning. Neural Computation 22(2): 342–76. Schroecker, Y. & Isbell, C. (2017). State Aware Imitation Learning. NIPS 30. (hrl-olddesign.informatik.uni-freiburg.de)
  • 13. 行動クローニングの問題点 • エキスパートと学習者の状態行動分布は異なる(共変量シフト) • 行動し続けることで誤差が蓄積し,エキスパートの分布から逸脱 – 元の分布に戻る手段がない Ross, S. & Bagnell, J.A. (2010). Efficient Reductions for Imitation Learning. In Proc. of AISTATS, 9:661–668. Osa, T., Pajarinen, J., Neumann, G., Bagnell, J.A., Abbeel, P.A., & Peters, J. (2018). An Algorithmic Perspective on Imitation Learning. Foundations and Trends in Robotics 7, no. 1–2, 1–179.
  • 14. 敵対的生成ネットワーク(Generative Adversarial Network; GAN) • 生成器(Generator)と識別器(Discriminator)の競合によって データを生成するモデル https://deephunt.in/the-gan-zoo-79597dc8c347 識別器𝐷(𝑥)生成器𝐺(𝑧) 識別器𝐷(𝑥) Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. NeurIPS 27, 2672–2680.
  • 15. Generative Adversarial Imitation Learning (GAIL) • 模倣学習を敵対的生成ネットワーク(GAN)として定式化 • 近年の模倣学習でベースラインとなる論文 • 生成器が(確率的)方策と 環境(シミュレータ)の 組み合わせ • 識別器𝐷(𝑠, 𝑎)から推定報酬を 計算 Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.
  • 16. GAILの目的関数 • 𝐷(𝑠, 𝑎)は𝑠が実データか生成されたデータかを判定する • 目的関数 – • 𝔼 𝑠,𝑎 ∼𝜋 𝐸 ⋅ は未知のエキスパート方策𝜋 𝐸(𝑎 ∣ 𝑠)のもとで得られる 定常状態行動分布のもとでの期待値 – 𝔼 𝑠,𝑎 ∼𝜋[⋅]も同様 min 𝜋 max 𝐷 𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 ln 𝐷 𝑠, 𝑎 − 𝜆ℋ(𝜋) 𝐷 𝑠, 𝑎 = ൝ 1 (𝑠, 𝑎)が学習者が生成データの場合 0 (𝑠, 𝑎)がエキスパートデータの場合 𝜋 𝐸 𝑠, 𝑎 = 𝜋 𝐸 (𝑎 ∣ 𝑠) ෍ 𝑡=0 ∞ 𝛾 𝑡 𝑃 𝑠𝑡 = 𝑠 𝜋 𝐸
  • 17. 識別器と生成器の目的関数 • 識別器の学習はGANと同様に二値分類問題 • 生成器の目的関数 – 識別器から計算される報酬を使って通常の強化学習を実行して 方策𝜋を求める – 任意のアルゴリズムが使用できるが,オリジナルではTrust Region Policy Optimization (Schulman, et al., 2015)を使用 max 𝐷 𝐽 𝐷 𝐷 , 𝐽 𝐷(𝐷) = 𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎 min 𝜋 𝐽 𝜋 𝜋 , 𝐽 𝜋 𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎 max 𝜋 𝔼 𝑠,𝑎 ∼𝜋 𝐿 𝑟 𝑠, 𝑎 𝑟 𝑠, 𝑎 = − ln 𝐷 𝑠, 𝑎
  • 18. エキスパートデータ数に対する性能比較 Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.
  • 19. GAILの様々な拡張 • 行動が観測できない場合への対応 – IRLGAN (Henderson et al., 2018), AGAIL (Sun & Ma, 2019), GAIfO (Torabi, et al., 2019) • マルチタスクへの応用 – OptionGAN (Henderson et al., 2018), InfoGAIL (Li, et al., 2017) • サンプル効率の改善 – DAC (Kostrikov, et al., 2019), (Sasaki et al., 2019), SAM (Blondé & Kalousis, 2019) • モデルベース – MGAIL (Baram et al., 2017) • 識別器の構造化 – AIRL (Fu, et al., 2018)
  • 20. GAILの問題点 • 少量のエキスパートデータから模倣行動を実現 – 単純な模倣(Behavior Cloning)よりも高性能 • 識別器が推定した報酬をもとに通常の方策オン型強化学習に よって方策を学習するため,環境との相互作用回数に関して サンプル効率は良くない – つまり実際に学習方策を用いてデータを大量に生成する必要がある • 識別器𝐷(𝑠, 𝑎)は構造化されていない • 推定された報酬は偏りがある
  • 21. 強化学習に基づく模倣学習 • 順強化学習+逆強化学習 → 敵対的模倣学習 (GAIL) 順強化学習のサンプル効率が悪い エキスパート 方策: 𝜋 𝐸 初期学習 方策: 𝜋0 𝐿 方策𝜋 𝑘 𝐿 の実行 逆強化学習(識別器) 𝑟𝑘, 𝑉𝑘 エキスパートの行動データ: 𝒟 𝐸 𝒟 𝑘 𝐿 順強化学習(生成器) 学習者の 行動データ: 𝒟 𝐿 推定報酬𝑟𝑘と価値関数𝑉𝑘 を使って方策を更新 行動データ𝒟 𝐸, 𝒟 𝐿から エキスパートの報酬𝑟と 価値関数𝑉を推定 𝜋 𝑘+1 𝐿 順強化学習と逆強化学習が密にカップリングした 敵対的模倣学習を提案 状態価値関数は順逆両方で更新される 生成器と識別器でネットワークの一部を共有する
  • 22. 定式化 • 次のKullback-Leibler (KL)ダイバージェンス最小化を考える – 𝜋 𝐸 : (未知の)エキスパートの分布, サンプルだけが与えられる – 𝜋 𝐿: 学習者の分布 – Τ𝜋 𝐿 𝜋 𝐸は計算できない • Note: 𝐷KL 𝜋 𝐸 ∥ 𝜋 𝐿 の最小化は 行動クローニング(BC)に対応 𝐽 𝜋 𝐿 = 𝐷KL(𝜋 𝐿 ∥ 𝜋 𝐸) = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln 𝜋 𝐿 𝑠, 𝑎, 𝑠′ 𝜋 𝐸 𝑠, 𝑎, 𝑠′ d𝑠d𝑎d𝑠′ 𝜋 𝐸 𝑠, 𝑎, 𝑠′ 𝜋∗ 𝐿 = arg min 𝐷KL 𝜋 𝐸 ∥ 𝜋 𝐿 𝜋∗ 𝐿 = arg min 𝐷KL 𝜋 𝐿 ∥ 𝜋 𝐸
  • 23. 提案手法のアイデア • 対数密度比をサンプルから推定し,近似した目的関数を最小化 – 識別器𝐷 𝑠, 𝑎, 𝑠′ をエントロピ正則化強化学習の理論をもとに構造化 – ロジスティック回帰による密度比推定 逆強化学習 – KLダイバージェンス最小化 順強化学習 𝐽 𝜋 𝐿 = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln 𝜋 𝐿 𝑠, 𝑎, 𝑠′ 𝜋 𝐸 𝑠, 𝑎, 𝑠′ d𝑠d𝑎d𝑠′ ≈ න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln 𝐷 𝑠, 𝑎, 𝑠′ 1 − 𝐷 𝑠, 𝑎, 𝑠′ d𝑠d𝑎d𝑠′ density ratio trick [Sugiyama et al., 2012] 内部 (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会 (優秀賞) Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse reinforcement learning. Proc. of RLDM.
  • 24. マルコフ性を利用した密度比の分解 • • 二つの識別器𝐷 𝑘 𝑠 , 𝐷 𝑘(𝑠, 𝑎, 𝑠′)をロジスティック回帰によって推定 𝐷 𝑘 𝑠 1 − 𝐷 𝑘 𝑠 𝜋 𝐿 𝑠, 𝑎, 𝑠′ 𝜋 𝐸 𝑠, 𝑎, 𝑠 = 𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎 𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎 × 𝜋 𝐿 𝑎 𝑠 𝜋 𝐸 𝑎 𝑠 × 𝜋 𝐿 𝑠 𝜋 𝐸 𝑠 𝐷 𝑘 𝑠, 𝑎, 𝑠′ 1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′ 状態遷移確率の比 ベルマン最適方程式
  • 25. 識別器と密度比の関係 • Bayes則 • 対数密度比 – 右辺第2項は 𝒟 𝐿 , 𝒟 𝐸 から計算 (Sugiyama, et al., 2012) 𝐷 𝑠 ≜ Pr(learner ∣ 𝑠) = Pr 𝑥 learner Pr learner Pr 𝑠 𝜋 𝐿 𝑠 = Pr(𝑠 ∣ learner) 𝜋 𝐿 𝑠 𝜋 𝐸 𝑠 𝐷 𝑠ln 𝐷(𝑠) 1 − 𝐷(𝑠) = ln 𝜋 𝐿(𝑠) 𝜋 𝐸(𝑠) + ln Pr learner Pr expert
  • 26. エントロピ正則化された強化学習 • 報酬が次の形式で表現されていると仮定 – ℋ(𝜋): 方策𝜋のエントロピ.確率的な探査行動への評価 – KL(𝜋 ∥ 𝜋 𝑘 𝐿 ): 方策𝜋 𝑘 𝐿 とのKLダイバージェンス.急激な方策更新に対する罰 – 𝑟𝑘(𝑥): 推定対象となる報酬関数 – 𝜅, 𝜂: メタパラメータ.ノイズ耐性や漸近的性能に影響 (Kozuno et al., 2019) – 𝜂 → ∞: Soft Q-learning, Soft Actor-Critic (Haarnoja et al., 2018) – 𝜅 → ∞: Dynamic Policy Programming (Azar et al., 2012) 𝑟 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜅−1ℋ 𝜋 − 𝜂−1 𝐷KL 𝜋 ∥ 𝜋 𝑘 𝐿 Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of softmax and gap-increasing operators in reinforcement learning. In Proc. of AISTATS.
  • 27. エントロピ正則された時の ソフトベルマン方程式 • 最適方策の下での最適状態価値に 関する関係式 • エントロピ正則化されたときの ベルマン最適方程式 • ラグランジュの未定乗数法により,𝜋に関して最大化が解ける 𝑉∗(𝑠) 𝑉∗(𝑠′) 𝑝 𝑇(𝑠′|𝑠, 𝑎) 𝑠 𝑠′ max 𝑉∗(𝑠) = max 𝜋 ෍ 𝑎 𝜋(𝑎 ∣ 𝑠) ൥𝑟 𝑠 − 𝜅−1 ln 𝜋 𝑎 𝑠 − 𝜂−1 ln 𝜋(𝑎 ∣ 𝑠) 𝜋 𝑘 𝐿 (𝑎 ∣ 𝑠) ቉+𝛾 ෍ 𝑠′ 𝑝 𝑇 𝑠′ 𝑠, 𝑎 𝑉∗ 𝑠′
  • 28. エントロピ正則されたソフトベルマン方程式 • 対数方策比が報酬,状態価値,一ステップ前の方策で表現される – • 最適方策を𝜋 = 𝜋 𝐸 としてKLダイバージェンスの計算に利用 1 𝛽 ln 𝜋 𝑎 𝑠 𝜋 𝑘 𝐿 (𝑎 ∣ 𝑠) = 𝑟𝑘 𝑠 − 𝜅−1 ln 𝜋 𝑘 𝐿 𝑎 𝑠 +𝛾𝔼 𝑠′∼𝑝 𝑇 ⋅∣𝑠,𝑎 𝑉𝑘 𝑠′ − 𝑉𝑘(𝑠) 𝛽 ≜ 𝜅𝜂 𝜅 + 𝜂 Uchibe, E. & Doya. K. (2014). Inverse reinforcement learning using Dynamic Policy Programming. In Proc. of ICDL-EpiRobo, 222–228. Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural Processing Letters 47(3): 891–905.
  • 29. 密度比推定問題としての逆強化学習 • ソフトベルマン方程式から導出された識別器の関係 ln 𝐷 𝑘 𝑠, 𝑎, 𝑠′ 1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′ = ln 𝐷 𝑘(𝑠) 1 − 𝐷 𝑘 𝑠 −𝛽 𝑟𝑘 𝑠 − 𝜅 ln 𝜋 𝑘 𝐺 𝑎 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠 𝐷 𝑘(𝑠, 𝑎, 𝑠′) = exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐺 𝑎 𝑠 exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐺 𝑎 𝑠 𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠 𝑔 𝑘 𝑠 ≜ ln Τ𝐷 𝑘(𝑠) 1 − 𝐷 𝑘 𝑠
  • 30. ベルマン方程式により構造化された識別器 • – 𝛽を調整して識別器の性能を制御 – Information Bottleneckとは異なる 識別器の制御(Peng et al., 2019) • 従来研究との関係 – AIRL (Fu et al., 2018): 𝑔 𝑘 𝑠 = 0 and 𝛽 = 1, 𝜅 = 1 – LogReg-IRL (Uchibe, 2018): 𝜅 = 0 𝐷 𝑘(𝑠, 𝑎, 𝑠′ ) = exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐿 𝑎 𝑠 exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐿 𝑎 𝑠 𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠 𝜋 𝐿 𝜋 𝐸
  • 31. KLダイバージェンス最小化としての順強化学習 • 密度比推定の結果を使ってKLダイバージェンスを最小化し, ベースライン方策を更新 – エントロピ正則化強化学習の目的関数 • 方策オフ型であるSoft Actor-Criticと類似したアルゴリズムによって 状態価値𝑉,行動価値𝑄,方策を学習 – 状態価値は逆強化学習の結果によって初期化 𝜋 𝑘+1 𝐿 = arg min 𝜋 𝐿 𝔼 𝜋 𝐿 ln 𝐷 𝑠, 𝑎, 𝑠′ 1 − 𝐷 𝑠, 𝑎, 𝑠′ = arg max 𝜋 𝐿 𝔼 𝜋 𝐿 ෍ 𝑡 𝛾 𝑡 ෤𝑟 𝑠𝑡, 𝑎 𝑡
  • 32. GANとの関係 • GAILにおける生成器の目的関数 – 学習初期は𝐺の性能が悪く簡単に識別できるため ln(1 − 𝐷 𝑠, 𝑎 が飽和 • よく使われる代替案 (Goodfellow et al., 2014) • 両者の和 ሚ𝐽 𝐺 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 − ln 1 − 𝐷 𝑠, 𝑎, 𝑠′ min 𝜋 𝐽 𝜋 𝜋 , 𝐽 𝜋 𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎, 𝑠′ ҧ𝐽 𝐺 = 𝐽 𝐺 + ሚ𝐽 𝐺 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎, 𝑠′ 1 − 𝐷 𝑠, 𝑎, 𝑠′
  • 33. 修正Soft Actor-Criticによる方策学習 • ソフト最適状態行動価値関数 • ソフト最適状態価値関数 • 最適方策 𝜋∗ 𝑎 𝑠 = exp 𝛽𝑄∗ 𝑠, 𝑎 exp 𝛽𝑉∗ 𝑠 𝑄∗ 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜂−1 ln 𝜋 𝑘 𝐿 (𝑎 ∣ 𝑠) + 𝛾𝔼 𝑝 𝑇 𝑉 𝑠′ 𝑉∗ 𝑠 = 1 𝛽 ln ෍ 𝑎 exp 𝛽𝑄∗ 𝑠, 𝑎 = softmax 𝑎 𝑄∗ (𝑠, 𝑎)
  • 34. 実験: MuJoCo制御課題 • タスク: できるだけ早く前進する • オリジナルの報酬 𝑟𝑡 = 𝑣 𝑡 − 𝑐 𝒂 𝑡 2 – 𝑣 𝑡: 前進速度.𝑐: ロボット固有のパラメータ • エキスパート方策の準備 – 方策オン型であるTrust Region Policy Optimization (Schulman et al., 2015)を 使って学習 – エキスパート方策からエキスパートデータ𝒟 𝜋を生成 • 提案手法(ERIL)を以下の手法と比較 – BC: 行動クローニング, GAIL – (Sasaki et al., 2019), DAC: Discriminator-Actor-Critic (Kostrikov et al., 2019), SAM: Sample-efficient Adversarial Mimic (Blondé, et al., 2019)
  • 35. エキスパートデータ数の効果 • 提案手法(ERIL)と 従来法は同程度 • BCはデータ数が 少ない場合は 性能は低い Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse reinforcement learning.
  • 36. 環境との相互作用回数の効果 • 順強化学習時の 相互作用の回数 が少ない場合, 提案手法(ERIL)は 従来法よりも性 能が高い Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse reinforcement learning.
  • 37. 実験: ビデオゲーム(Atari)課題 • エキスパートデータ𝒟 𝜋 – 3人の被験者から収集 𝑠𝑡, 𝑎 𝑡 human, 𝑟𝑡, 𝑠𝑡+1 𝑡=1 𝑇 – 𝒟 𝜋 = 𝑠𝑡, 𝑠𝑡+1 𝑡=0 𝑇 : 行動を取り除く – 状態𝑠はゲーム画面 • 推定された報酬を使って,最初から学習 したときの学習曲線を比較 • 提案手法(ERIL)を以下の手法と比較 – BC,オリジナル報酬からの学習, LogReg-IRL (Uchibe, 2018) – PI_IOC (Kalakrishnan et al., 2013): 経路積分型逆強化学習 SeaquestSpace Invaders Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse reinforcement learning.
  • 39. 実験: 人の倒立振り子課題 • タスク: 振り子を振り上げ,3秒間倒立状態を 維持する • 実験条件: – 振り子の長さ: long (73 cm), short (29 cm) – 各振り子ごとに15試行 – 1試行あたり最大40 [s] – 被験者数: 7 (右利き: 5, 左利き: 2) – 行動(𝐹𝑥, 𝐹𝑦)は観測されない • 提案手法(ERIL)を以下の手法と比較 – GAIfO: GAN-based imitation – C-BC: 条件つき行動クローニング – LogReg-IRL (Uchibe, 2018): 𝐹𝑥 𝐹𝑦 𝜃 (𝑥, 𝑦) • State: (𝑥, ሶ𝑥, 𝑦, ሶ𝑦, 𝜃, ሶ𝜃) • Action: (𝐹𝑥, 𝐹𝑦)
  • 40. 条件つきへの拡張 • 識別器に条件ラベル𝑐を導入 • マルチタスク強化学習で使われる表現 • 𝑉(𝑠, 𝑐): universal value function (Schaul et al., 2015) 𝐷 𝑘(𝑠, 𝑎, 𝑠′ ∣ 𝑐) = exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐿 𝑎 𝑠, 𝑐 exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 + exp 𝛽𝜅−1 ln 𝜋 𝑘 𝐿 𝑎 𝑠, 𝑐 𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 ≜ 𝑟𝑘 𝑠, 𝑐 − 𝛽−1 𝑔 𝑘 𝑠, 𝑐 + 𝛾𝑉𝑘 𝑠′, 𝑐 − 𝑉𝑘 𝑠, 𝑐
  • 41. 被験者行動の復元 • 従来法よりも被験者行動を復元 • C-ERIL vs ERIL: 条件つきにすることで改善 observed trajectories generated trajectories
  • 42. まとめ • エントロピ正則された強化学習に基づく敵対的模倣学習を提案 – 逆強化学習 = 密度比推定による報酬と状態価値の推定 = ロジスティック回帰によるエキスパートと学習者のデータの分類 – 順強化学習 = 近似reverse KLダイバージェンスの最小化 = 方策オフ型のSoft Actor-Criticによる方策と価値関数の更新 • 様々なベンチマーク課題により従来法よりもサンプル効率が良い ことを示した – 順・逆強化学習でネットワークを一部共有している – 順強化学習が方策オフ型で,過去に収集したデータを利用できる
  • 43. 今後の課題 • メタパラメータの調査 – 順強化学習における効果 (Kozuno et al., 2019) – 逆強化学習でも同様? • その他の敵対的模倣学習との比較 – Forward KL version of AIRL (Ghasemipour et al., 2019) – Soft Q Imitation Learning (Reddy et al., 2019)
  • 44. 謝辞 • 本研究の成果は,国立研究開発法人新エネルギー ・ 産業技術総合 開発機構 (NEDO) の委託業務,JST 未来社会創造事業 JPMJMI18B8の 結果得られたものです.また,本研究の一部は JSPS 科研費 JP17H06042,JP19H05001の助成を受けたものです.
  • 45. References • Blondé, L., & Kalousis, A. (2019). Sample-Efficient Imitation Learning via Generative Adversarial Nets. Proc. of the 22nd International Conference on Artificial Intelligence and Statistics, 3138–48. • Finn, C., Christiano, P., Abbeel, P., and Levine, S. (2016). A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models. NIPS 2016 Workshop on Adversarial Training. • Fu, J., Luo, K., and Levine, S. (2018). Learning robust rewards with adversarial inverse reinforcement learning. In Proc. of ICLR. • Fujimoto, S., van Hoof, H., & Meger, D. (2018). Addressing Function Approximation Error in Actor- Critic Methods. Proc. of the 35th International Conference on Machine Learning. • Henderson, P., Chang, W.-D., Bacon, P.-L., Meger, D., Pineau, J., & Precup, D. (2018). OptionGAN: Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning. In Proc. of AAAI. • Hirakawa, T., Yamashita, T., Tamaki, T., Fujiyoshi, H., Umezu, Y., Takeuchi, I., Matsumoto, S., and Yoda, K. (2018). Can AI predict animal movements? Filling gaps in animal trajectories using inverse reinforcement learning. Ecosphere.
  • 46. References • Ho, J. and Ermon, S. (2016). Generative adversarial imitation learning. NIPS29. • Kalakrishnan, M., Pastor, P., Righetti, L., & Schaal, S. (2013). Learning objective functions for manipulation. In Proc. of ICRA, 1331–1336. • Kostrikov, I., Agrawal, K.K., Dwibedi, D., Levine, S., & Tompson, J. (2019). Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning. Proc. of the 7th ICLR. • Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of softmax and gap-increasing operators in reinforcement learning. In Proc. of AISTATS. • Li, Y., Song, J., & Ermon, S. (2017). InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations. NIPS30. • Peng, X.B., Kanazawa, A., Toyer, S., Abbeel, P., & Levine, S. (2019). Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow. In Proc. of the 7th International Conference on Learning Representations. ICLR, 2019. • Sasaki, F., Yohira, T., & Kawaguchi, A. (2019). Sample Efficient Imitation Learning for Continuous Control. Proc. of the 7th International Conference on Learning Representations.
  • 47. References • Schaul, T., Horgan, D., Gregor, K., & Silver, D. (2015). Universal Value Function Approximators. In Proc. of ICML, 1312–1320. • Shimosaka, M., Kaneko, T., & Nishi, K. (2014). Modeling risk anticipation and defensive driving on residential roads with inverse reinforcement learning. Proc. of the 17th International IEEE Conference on Intelligent Transportation Systems, 1694–1700. • Sugiyama, M., Suzuki, T., & Kanamori, T. (2012). Density ratio estimation in machine learning. Cambridge University Press. • Sun, M., & Ma, X. (2019). Adversarial Imitation Learning from Incomplete Demonstrations. In Proc. of IJCAI, 2019. • Suzuki, Y., Wee, W.M., & Nishioka, I. (2019). TV Advertisement Scheduling by Learning Expert Intentions. In Proc. of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 3071–81. • Torabi, F., Warnell, G., & Stone, P. (2019). Generative Adversarial Imitation from Observation. ICML 2019 Workshop on Imitation, Intent, and Interaction. • Uchibe, E. & Doya, K. (2014). Inverse reinforcement learning using dynamic policy programming. In Proc. of ICDL and Epirob.
  • 48. References • Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural Processing Letters, 47(3): 891-905. • 内部. (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会 予稿集. • Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse reinforcement learning. Proc. of RLDM. • Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse reinforcement learning. • Wulfmeier, M., Rao, D., Wang, D.Z., Ondruska, P., & Posner, I. (2017). Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, vol. 36, no. 10: 1073–1087. • Yamaguchi, S., Honda, N., Ikeda, M., Tsukada, Y., Nakano, S., Mori, I., and Ishii, S. (2018). Identification of animal behavioral strategies by inverse reinforcement learning. PLoS Computational Biology.