Generative Adversarial Imitation Learningの紹介（RLアーキテクチャ勉強会）

Generative Adversarial
Imitation Learning
Jonathan Ho, Stefano Ermon (NIPS 2016)
中田勇介(M1)
千葉大学大学院融合理工学府
荒井研究室
2017/11/14 RLアーキテクチャ勉強会

発表の構成
2
論文の主な貢献
模倣学習，IRL ，RLの概要
RL○IRLを凸最適化問題として定式化
既存の徒弟学習手法を凸最適化問題の枠組みで説明
 徒弟学習(Apprenticeship learning) = IRLによる模倣学習
提案法：GANsを用いた模倣学習アルゴリズム
実験結果
まとめ

論文の主な貢献
3
RL○IRLと同じ方策を学習する模倣学習アルゴリズム
 環境の情報を必要としないモデルフリーアルゴリズム
 報酬（コスト）を推定することなく方策を直接学習
 既存のIRLが必要とする試行錯誤(RL)を削減
 大規模，高次元状態行動空間に適用可能
RL○IRLを凸最適化(min max)問題として定式化
既存の模倣学習手法を定式化した枠組みで説明
 IRLを使った模倣学習手法 [Abbeel 04], [Syed 08]
GANを用いた模倣学習アルゴリズムを提案

模倣学習
4
所与：エキスパートの意思決定系列
学習対象：エキスパートの方策
主なアプローチは二つ
 Behavior cloning [Pomerleau 89]
 Apprenticeship Learning (IRL) [Abbeel 04], [Syed 08]

逆強化学習
5
エキスパートが最小化するコストを推定する手法
 エキスパート，タスクの解き方を知っているエージェント
 推定したコストを最小化する方策 = エキスパートの方策
三つのステップで推定 Update cost
Run RLCompare with
Expert

逆強化学習
6
目的関数(Maximum causal Entropy IRL)
※
上式の解に対する最適方策はエキスパートの方策と一致

強化学習
7
コストの期待値を最小化する方策を学習
IRLで求めたコストに対してRLすればエキスパートの
方策を再現可能
目的関数（エキスパートの方策を再現する場合）

論文の目的
8
上式はIRLを解いてRLを解くという2段階の問題設定
RL○IRLを1段階の問題設定で定式化したい
変数を変換しRL○IRLを凸最適化問題として定式化

凸最適化問題とは
9
非凸関数凸関数

10
凸関数凹関数
凸関数をひっくり返したものが凹関数

11
von Neumannのミニマックス定理（鞍点の存在定理）
 YとZはそれぞれ空でないコンパクト凸集合．KはY×Zを定義
域とする実数値関数．Zを固定したK(･, z)が下半連続な凸関数．
Yを固定したK(y, ･)が上半連続な凹関数ならば関数K(y, z)には
鞍点が存在する．
https://ja.wikipedia.org/wiki/%E9%9E%8D%E7%82%B9

12
局所的な最小値が大域的な最小値と一致
狭義凸関数で最小値を持てば解は一意に決まる
最適性条件など諸定理が分かっていることも嬉しい
 KKT条件，双対定理，鞍点定理，ミニマックス定理等

IRL，RLの再定式化
13
凸な正則化関数を含むIRLを定義
正則化関数を導入しコスト関数の表現能力を目的関数に反映

IRL，RLの再定式化
14
正則化関数を含むIRLの解をと表す
 を凸最適化問題にするために変数を変換
コストの期待値は次式で表される

ρが満たす性質
15
 とは一対一対応

 はアフィン集合

命題3.2.
16
命題：RL○IRLで得られる方策は次式で表される
 はの凸共役関数

証明
17
変数をρに変換した関数を定義
凸関数凹関数線形関数線形関数

証明
18
とは対応
命題の式の解
上式を用いて命題の式の解，IRL，RL○IRLを表す
IRLの解
RL○IRLの解
とは一対一対応なのでを示せば命題が示せる

証明
19
 は任意のに対して凸関数（が変数）
 は任意のに対して凹関数（が変数）
上記と変数の定義域からは鞍点を持つ
鞍点の定義
凸関数凹関数線形関数線形関数
※Von Neumannのミニマックス定理

証明
20
鞍点の定義
鞍点の定義より次式が成り立つ

証明
21
minとmaxの定義から次式が成り立つ

証明
22
鞍点の定義から導いた式
minとmaxの定義から導いた式
関数は上の二つの式を満たすので
※minimax dualityからも分かる．

証明
23
上式より，はの鞍点である
命題の式の解
IRLの解

証明
24
上式より，はの鞍点である
鞍点なので次式が成り立つ
命題の式の解
IRLの解

証明
25
RL○IRLの解は次式で表される
鞍点の条件から導いた式は
よって
とは一対一対応
は狭義凸関数
証明終わり

証明から分かること
26
今までは次式を解いていた
証明によって次式を解けば良いことが分かった
IRLの解
RL○IRLの解

IRLに関して分かったこと
27
IRLは関数の鞍点を求めていた
上の事実は正則化関数が定数の場合が理解しやすい
上式の解は次の問題のラグランジュ関数の解に等しい
Cがラグランジュ変数
（制約なし）

28
IRLはラグランジュ変数を求めていたことになる
例えば，MaxEnt IRLは次の二つのステップを繰り返す
これは双対上昇法（鞍点の座標を求める手法）
双対上昇法は主問題が安易に解ける場合は有効
しかし，IRLの場合はRLを解く必要があるため非効率
主問題

29
凹関数の上昇
方向に更新
凸関数最適化
凹関数の勾配
計算
Update Cost
Compare with
Expert
IRL 双対上昇法
Run RL
非効率

線形コストの場合の模倣学習
30
模倣学習の場合，双対上昇法(IRL)は非効率的
疑問：導出した問題は効率的に解けるのか？
導出した問題
既存の徒弟学習
IRLの解

線形コストの場合の模倣学習
31
コスト関数が線形の場合には効率的な方法がある
1. 軌跡をサンプルし解析的にコストを求める
2. 解いたコストを使って方策勾配
1, 2を繰り返す
線形の場合は解析的に解ける

GANsを用いた非線形コストの模倣学習
32
非線形のコスト関数を使いたい
GANsは，ある非線形関数のミニマックス問題を解ける
GANsの目的関数と一致するように正則化関数を定義
模倣学習の目的関数
最小値で分布が一致

まとめ
35
IRLを必要としない模倣学習アルゴリズムを提案
モデルフリーのアルゴリズム
教師データの数は少なくて良い
IRLの解を凸解析の枠組みで説明

Generative Adversarial Imitation Learningの紹介（RLアーキテクチャ勉強会）

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Generative Adversarial Imitation Learningの紹介（RLアーキテクチャ勉強会）