Contenu connexe Similaire à Large-Scale Bandit Problems and KWIK Learning (10) Large-Scale Bandit Problems and KWIK Learning1. 論文紹介
Large-Scale Bandit Problems
and KWIK Learning
[ICML 2013]
Jacob Abernethy(Univ of Pennsylvania),
Kareem Amin(Univ of Pennsylvania),
Moez Draief(Imperial College, London),
Michael Kearns(Univ of Pennsylvania)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
5. 代表的な既存研究1(私が知っているというだけ)
Finite-time Analysis of the Multiarmed Bandit Problem
[Auer+ ML2002]
• UCB1(アルゴリズム)
– 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる
【問題設定】
スロットマシン A a1 , a2 ,, an
スロットマシン ai A を1回プレイすると、確率的に報酬 Rai [0,1] が得られる.
(i.i.d)
【アルゴリズム】 UCB1
毎ステップ、
当該スロットマシンの報酬の平均 +
総プレイ回数
当該スロットマシンのプレイ回数
2 ln
が
最大となるスロットマシンをプレイするアルゴリズム
【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの
プレイ回数の期待値は高々𝑂 ln 総プレイ回数 で、これが最適。
4/21
6. 代表的な既存研究2-1(私が知っているというだけ)
PAC Bounds for Multi-armed Bandit and Markov Decision
Processes[Eyal+ COLT2002]
• 𝜀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem
【問題設定】
スロットマシン A a1 , a2 ,, an
スロットマシン ai A を1回プレイすると、確率的にバイナリ報酬 Rai 0,1 が得られる.
(i.i.d)
*
最も報酬の期待値の大きいスロットマシン a :最適なスロットマシン
ERa E R a* をみたすスロットマシン
a : 最適なスロットマシン
【定義】 , -PAC algorithm for Multi-armed Bandit Problem
少なくとも,確率 1 で 最適なスロットマシンをひとつ
返すアルゴリズム.
5/21
7. 代表的な既存研究2-2(私が知っているというだけ)
【アルゴリズム】 Naive ,
n A
1.すべてのスロットマシン a Aを
l
2n
log
2
4
たくさんプレイすれば
平均は収束する
回プレイする.
ˆ
2. pa をスロットマシン a A の報酬の平均とする.
ˆ
3. a arg maxpa を出力する.
aA
【定理】 Naive ,
Naive , は , -PAC algorithm for Multi-armed Bandit
Problemである.また,このときのサンプル量は
n
n
O 2 log で
ある.
※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。
6/21
10. 本論文のテーマのMAB問題
【問題設定】
MAB問題とは 𝒳, 𝒜, ℱ 𝜃 である
状態空間 𝒳 状態を導入
報酬関数をパラメトリックに
行動空間 𝒜
報酬関数の族 ℱΘ = 𝑓 𝜃 : 𝒳 × 𝒜 ⟶ ℝ+ |θ ∈ Θ
ステップ𝑡
状態 𝑥 𝑡 ∈ 𝒳
行動 𝑎 𝑡 ∈ 𝒜
報酬 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡 + 𝜂 𝑡
学習者
環境
報酬関数 𝑓 𝜃 ∈ ℱ 𝜃
確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0
強化学習との違い:強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、
ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。 9/21
11. MAB問題の種類
状態空間𝒳も行動空間𝒜も、とても大きい or 無限
• Large-scale MAB問題 ←本論文のテーマ
状態空間𝒳だけが、とても大きい or 無限
• Large-state MAB問題
(Contextual Banditsとも言う)
行動空間𝒜だけが、とても大きい or 無限大
• Large-action MAB問題
– 代表的な既存研究3
10/21
13. 効率的って具体的に何?
【定義】 Large-scale MAB問題 𝒳, 𝒜, ℱ 𝜃 に対する
アルゴリズムがリグレットなし
任意の報酬関数𝑓 𝜃 ∈ ℱΘ 、
任意の状態𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 ∈ 𝒳に対して、
アルゴリズムの取る行動𝑎1 , 𝑎2 , … , 𝑎 𝑇 ∈ 𝒜が
ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。
損失の累積が、線形増加よりも小さい⇔リグレットなし
ただし、 𝑅
𝑇 = 𝔼
𝑇
𝑡=1
max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡
𝑡
𝑎∗ ∈𝒜
12/21
14. Large-action MAB問題に対するアルゴリズム
【定義】 Fixed-state optimization algorithm
固定状態𝑥 ∈ 𝒳, 𝜀 > 0に対して、
行動𝑎1 , 𝑎2 , … ∈ 𝒜を返す(有限回)。
報酬の予測𝑦1 , 𝑦 2 , … ∈ ℝを受け取る。
(ただし答えは 𝑦 𝑡 − 𝑓 𝜃 𝑥, 𝑎 𝑡 ≤ 𝜀を満たしていること。)
このとき、最後の行動𝑎 ∈ 𝒜は、
max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀を
𝑎∈𝒜
満たすアルゴリズム。
状態𝑥 ∈ 𝒳
FixedStateOpt
ブラックボックス
行動𝑎 ∈ 𝒜
s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀
𝑎∈𝒜
13/21
15. Fixed-state optimization algorithmを使って
リグレットなしっぽいアルゴリズムを構築
状態𝑥 ∈ 𝒳
FixedStateOpt
ブラックボックス
行動𝑎 ∈ 𝒜
s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀
𝑎∈𝒜
ブラックボックスの内部処理は無視すると、
𝑅 𝑇
1
= 𝔼
𝑇
𝑇
1
≤ 𝔼
𝑇
𝑇
𝑡=1
𝑇
max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡
𝑡
𝑎∗ ∈𝒜
𝜀 = 𝜀
𝑡=1
したがって、𝜀を適切に選べば、
𝑅 𝑇
𝑇
を任意に小さくすることができるっぽい。
「○○っぽい」を外すために、KWIK学習を使う!
14/21
16. KWIK学習(Knows What It Knows) [Li+ 2008]
【問題設定】
KWIK学習の問題とは 𝒵, 𝒴, ℱ である
入力空間 𝒵
出力空間 𝒴 ⊂ ℝ
関数の族 ℱ = 𝑓: 𝒵 → 𝒴
ステップ𝑡
入力 𝑧 𝑡 ∈ 𝒵
𝑓 𝑧 𝑡 の予測 𝑦 𝑡 ∈ 𝒴 ∪ ⊥
環境
𝑓 𝑧 𝑡 の答え 𝑓 𝑧 𝑡 + 𝜂 𝑡
学習者
確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0
学習者は、
• 𝑓 𝑧 𝑡 の予測ができるならその値𝑦 𝑡 ∈ 𝒴を返す。
• ただし 𝑦 𝑡 − 𝑓 𝑧 𝑡 > 𝜖なら失敗で、学習は終了。
• わからないなら𝑦 𝑡 =⊥を返す。
• 𝑓 𝑧 𝑡 + 𝜂 𝑡 を教えてもらえる。
15/21