SlideShare une entreprise Scribd logo
1  sur  35
Generative Adversarial
Imitation Learning
Jonathan Ho, Stefano Ermon (NIPS 2016)
中田 勇介(M1)
千葉大学 大学院 融合理工学府
荒井研究室
2017/11/14 RLアーキテクチャ勉強会
発表の構成
2
論文の主な貢献
模倣学習,IRL ,RLの概要
RL○IRLを凸最適化問題として定式化
既存の徒弟学習手法を凸最適化問題の枠組みで説明
 徒弟学習(Apprenticeship learning) = IRLによる模倣学習
提案法:GANsを用いた模倣学習アルゴリズム
実験結果
まとめ
論文の主な貢献
3
RL○IRLと同じ方策を学習する模倣学習アルゴリズム
 環境の情報を必要としないモデルフリーアルゴリズム
 報酬(コスト)を推定することなく方策を直接学習
 既存のIRLが必要とする試行錯誤(RL)を削減
 大規模,高次元状態行動空間に適用可能
RL○IRLを凸最適化(min max)問題として定式化
既存の模倣学習手法を定式化した枠組みで説明
 IRLを使った模倣学習手法 [Abbeel 04], [Syed 08]
GANを用いた模倣学習アルゴリズムを提案
模倣学習
4
所与:エキスパートの意思決定系列
学習対象:エキスパートの方策
主なアプローチは二つ
 Behavior cloning [Pomerleau 89]
 Apprenticeship Learning (IRL) [Abbeel 04], [Syed 08]
逆強化学習
5
エキスパートが最小化するコストを推定する手法
 エキスパート,タスクの解き方を知っているエージェント
 推定したコストを最小化する方策 = エキスパートの方策
三つのステップで推定 Update cost
Run RLCompare with
Expert
逆強化学習
6
目的関数(Maximum causal Entropy IRL)
※
上式の解 に対する最適方策はエキスパートの方策と一致
強化学習
7
コストの期待値を最小化する方策を学習
IRLで求めたコストに対してRLすればエキスパートの
方策を再現可能
目的関数(エキスパートの方策を再現する場合)
論文の目的
8
上式はIRLを解いてRLを解くという2段階の問題設定
RL○IRLを1段階の問題設定で定式化したい
変数を変換しRL○IRLを凸最適化問題として定式化
凸最適化問題とは
9
非凸関数凸関数
凸最適化問題とは
10
凸関数 凹関数
凸関数をひっくり返したものが凹関数
凸最適化問題とは
11
von Neumannのミニマックス定理(鞍点の存在定理)
 YとZはそれぞれ空でないコンパクト凸集合.KはY×Zを定義
域とする実数値関数.Zを固定したK(・, z)が下半連続な凸関数.
Yを固定したK(y, ・)が上半連続な凹関数ならば関数K(y, z)には
鞍点が存在する.
https://ja.wikipedia.org/wiki/%E9%9E%8D%E7%82%B9
凸最適化問題とは
12
局所的な最小値が大域的な最小値と一致
狭義凸関数で最小値を持てば解は一意に決まる
最適性条件など諸定理が分かっていることも嬉しい
 KKT条件,双対定理,鞍点定理,ミニマックス定理 等
IRL,RLの再定式化
13
凸な正則化関数を含むIRLを定義
正則化関数を導入しコスト関数の表現能力を目的関数に反映
IRL,RLの再定式化
14
正則化関数を含むIRLの解を と表す
 を凸最適化問題にするために変数を変換
コストの期待値は次式で表される
ρが満たす性質
15
 と は一対一対応

 はアフィン集合
命題3.2.
16
命題:RL○IRLで得られる方策は次式で表される
 は の凸共役関数
証明
17
変数をρに変換した関数を定義
凸関数 凹関数線形関数線形関数
証明
18
と は対応
命題の式の解
上式を用いて命題の式の解,IRL,RL○IRLを表す
IRLの解
RL○IRLの解
と は一対一対応なので を示せば命題が示せる
証明
19
 は任意の に対して凸関数( が変数)
 は任意の に対して凹関数( が変数)
上記と変数の定義域から は鞍点 を持つ
鞍点の定義
凸関数 凹関数線形関数線形関数
※Von Neumannのミニマックス定理
証明
20
鞍点の定義
鞍点の定義より次式が成り立つ
証明
21
minとmaxの定義から次式が成り立つ
証明
22
鞍点の定義から導いた式
minとmaxの定義から導いた式
関数 は上の二つの式を満たすので
※minimax dualityからも分かる.
証明
23
上式より, は の鞍点である
命題の式の解
IRLの解
証明
24
上式より, は の鞍点である
鞍点なので次式が成り立つ
命題の式の解
IRLの解
証明
25
RL○IRLの解 は次式で表される
鞍点の条件から導いた式 は
よって
と は一対一対応
は狭義凸関数
証明終わり
証明から分かること
26
今までは次式を解いていた
証明によって次式を解けば良いことが分かった
IRLの解
RL○IRLの解
IRLに関して分かったこと
27
IRLは関数 の鞍点を求めていた
上の事実は正則化関数が定数の場合が理解しやすい
上式の解は次の問題のラグランジュ関数の解に等しい
Cがラグランジュ変数
(制約なし)
IRLに関して分かったこと
28
IRLはラグランジュ変数を求めていたことになる
例えば,MaxEnt IRLは次の二つのステップを繰り返す
これは双対上昇法(鞍点の座標を求める手法)
双対上昇法は主問題が安易に解ける場合は有効
しかし,IRLの場合はRLを解く必要があるため非効率
主問題
IRLに関して分かったこと
29
凹関数の上昇
方向に更新
凸関数最適化
凹関数の勾配
計算
Update Cost
Compare with
Expert
IRL 双対上昇法
Run RL
非効率
線形コストの場合の模倣学習
30
模倣学習の場合,双対上昇法(IRL)は非効率的
疑問:導出した問題は効率的に解けるのか?
導出した問題
既存の徒弟学習
IRLの解
線形コストの場合の模倣学習
31
コスト関数が線形の場合には効率的な方法がある
1. 軌跡をサンプルし解析的にコストを求める
2. 解いたコストを使って方策勾配
1, 2を繰り返す
線形の場合は解析的に解ける
GANsを用いた非線形コストの模倣学習
32
非線形のコスト関数を使いたい
GANsは,ある非線形関数のミニマックス問題を解ける
GANsの目的関数と一致するように正則化関数を定義
模倣学習の目的関数
最小値で分布が一致
アルゴリズム
33
実験結果
34
まとめ
35
IRLを必要としない模倣学習アルゴリズムを提案
モデルフリーのアルゴリズム
教師データの数は少なくて良い
IRLの解を凸解析の枠組みで説明

Contenu connexe

Tendances

報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action DiffusionDeep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

Tendances (20)

報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)