Large-Scale Bandit Problems and KWIK Learning

論文紹介

Large-Scale Bandit Problems
and KWIK Learning
[ICML 2013]
Jacob Abernethy(Univ of Pennsylvania),
Kareem Amin(Univ of Pennsylvania),
Moez Draief(Imperial College, London),
Michael Kearns(Univ of Pennsylvania)

斎藤淳哉
間違い等ありましたらご連絡ください

junya【あっと】fugaga.info

スライドの流れ
• MAB問題の既存研究を紹介
• 本論文のテーマのMAB問題を定義
• KWIK学習を紹介
• MAB問題をKWIK学習に帰着

1/21

古典的なMAB問題
MAB問題：Multi-Armed Bandit Problem,
多腕バンディット問題
古典的なMAB問題の趣旨
スロットマシンが複数台あります。
スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。
どうプレイすれば、たくさん儲けられるでしょうか？

Arm
（英語で、スロットマシン＝One-Armed Bandit）

2/21

シンプルで重要な問題なので、
既存研究がたくさんあります。
問題設定を微妙に変えて、
様々な理論的解析が行われています。

3/21

代表的な既存研究1（私が知っているというだけ）
Finite-time Analysis of the Multiarmed Bandit Problem
[Auer+ ML2002]
• UCB1（アルゴリズム）
– 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる
【問題設定】
スロットマシン A  a1 , a2 ,, an 

スロットマシン ai  A を１回プレイすると、確率的に報酬 Rai   [0,1] が得られる．
（i.i.d）

【アルゴリズム】 UCB1
毎ステップ、

当該スロットマシンの報酬の平均 +

総プレイ回数
当該スロットマシンのプレイ回数
2 ln

が

最大となるスロットマシンをプレイするアルゴリズム
【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの
プレイ回数の期待値は高々𝑂 ln 総プレイ回数で、これが最適。

4/21

代表的な既存研究2-1（私が知っているというだけ）
PAC Bounds for Multi-armed Bandit and Markov Decision
Processes[Eyal+ COLT2002]
• 𝜀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem
【問題設定】

スロットマシン A  a1 , a2 ,, an 

スロットマシン ai  A を１回プレイすると、確率的にバイナリ報酬 Rai  0,1 が得られる．
（i.i.d）

*

最も報酬の期待値の大きいスロットマシン a ：最適なスロットマシン

  

ERa   E R a*   をみたすスロットマシン

a ：  最適なスロットマシン

【定義】  ,   -PAC algorithm for Multi-armed Bandit Problem
少なくとも，確率 1   で  最適なスロットマシンをひとつ
返すアルゴリズム．
5/21

代表的な既存研究2-2（私が知っているというだけ）
【アルゴリズム】 Naive  ,  

n A

1.すべてのスロットマシン a  Aを

l

 2n 
log 
2
 
4

たくさんプレイすれば
平均は収束する

回プレイする．

ˆ
2. pa をスロットマシン a  A の報酬の平均とする．
ˆ
3. a  arg maxpa  を出力する．
aA

【定理】 Naive  ,  
Naive  ,   は  ,  -PAC algorithm for Multi-armed Bandit
Problemである．また，このときのサンプル量は

 n
 n 
O 2 log  で


  


ある．
※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。

6/21

代表的な既存研究3（私が知っているというだけ）
Multi-Armed Bandits in Metric Spaces
[Kleinberg+ STOC2008]
• 行動集合が、距離空間で、
報酬関数の族が、その上でリプシッツ連続な関数の
族であるときの、MAB問題について解析

詳細略

7/21

ここから本論文のテーマ

8/21

本論文のテーマのMAB問題
【問題設定】
MAB問題とは 𝒳, 𝒜, ℱ 𝜃 である
状態空間 𝒳 状態を導入
報酬関数をパラメトリックに
行動空間 𝒜
報酬関数の族 ℱΘ = 𝑓 𝜃 : 𝒳 × 𝒜 ⟶ ℝ+ |θ ∈ Θ
ステップ𝑡

状態 𝑥 𝑡 ∈ 𝒳
行動 𝑎 𝑡 ∈ 𝒜

報酬 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡 + 𝜂 𝑡

学習者

環境

報酬関数 𝑓 𝜃 ∈ ℱ 𝜃
確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0

強化学習との違い：強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、
ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。 9/21

MAB問題の種類
状態空間𝒳も行動空間𝒜も、とても大きい or 無限
• Large-scale MAB問題 ←本論文のテーマ
状態空間𝒳だけが、とても大きい or 無限
• Large-state MAB問題
（Contextual Banditsとも言う）
行動空間𝒜だけが、とても大きい or 無限大
• Large-action MAB問題
– 代表的な既存研究3
10/21

本論文でやりたいこと

Large-scale MAB問題

帰着して効率的に
解けることを示す
Large-action MAB問題に対するアルゴリズム：

KWIK学習のアルゴリズム

＋

Fixed-state optimization algorithm

11/21

効率的って具体的に何？
【定義】 Large-scale MAB問題 𝒳, 𝒜, ℱ 𝜃 に対する
アルゴリズムがリグレットなし
任意の報酬関数𝑓 𝜃 ∈ ℱΘ 、
任意の状態𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 ∈ 𝒳に対して、
アルゴリズムの取る行動𝑎1 , 𝑎2 , … , 𝑎 𝑇 ∈ 𝒜が
ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。
損失の累積が、線形増加よりも小さい⇔リグレットなし

ただし、 𝑅

𝑇 = 𝔼

𝑇
𝑡=1

max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡
𝑡
𝑎∗ ∈𝒜

12/21

Large-action MAB問題に対するアルゴリズム
【定義】 Fixed-state optimization algorithm
固定状態𝑥 ∈ 𝒳, 𝜀 > 0に対して、
行動𝑎1 , 𝑎2 , … ∈ 𝒜を返す（有限回）。
報酬の予測𝑦1 , 𝑦 2 , … ∈ ℝを受け取る。
（ただし答えは 𝑦 𝑡 − 𝑓 𝜃 𝑥, 𝑎 𝑡 ≤ 𝜀を満たしていること。）
このとき、最後の行動𝑎 ∈ 𝒜は、
max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀を
𝑎∈𝒜

満たすアルゴリズム。

状態𝑥 ∈ 𝒳

FixedStateOpt
ブラックボックス

行動𝑎 ∈ 𝒜
s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀
𝑎∈𝒜

13/21

Fixed-state optimization algorithmを使って
リグレットなしっぽいアルゴリズムを構築
状態𝑥 ∈ 𝒳

FixedStateOpt

行動𝑎 ∈ 𝒜
s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀
𝑎∈𝒜

ブラックボックスの内部処理は無視すると、
𝑅 𝑇
1
= 𝔼
𝑇
𝑇
1
≤ 𝔼
𝑇

𝑇

𝑡=1
𝑇

max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡
𝑡
𝑎∗ ∈𝒜

𝜀 = 𝜀
𝑡=1

したがって、𝜀を適切に選べば、
𝑅 𝑇
𝑇

を任意に小さくすることができるっぽい。
「○○っぽい」を外すために、KWIK学習を使う！

14/21

KWIK学習（Knows What It Knows） [Li+ 2008]
【問題設定】
KWIK学習の問題とは 𝒵, 𝒴, ℱ である
入力空間 𝒵
出力空間 𝒴 ⊂ ℝ
関数の族 ℱ = 𝑓: 𝒵 → 𝒴
ステップ𝑡

入力 𝑧 𝑡 ∈ 𝒵
𝑓 𝑧 𝑡 の予測 𝑦 𝑡 ∈ 𝒴 ∪ ⊥

環境

𝑓 𝑧 𝑡 の答え 𝑓 𝑧 𝑡 + 𝜂 𝑡

学習者

確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0

学習者は、
• 𝑓 𝑧 𝑡 の予測ができるならその値𝑦 𝑡 ∈ 𝒴を返す。
• ただし 𝑦 𝑡 − 𝑓 𝑧 𝑡 > 𝜖なら失敗で、学習は終了。
• わからないなら𝑦 𝑡 =⊥を返す。
• 𝑓 𝑧 𝑡 + 𝜂 𝑡 を教えてもらえる。

15/21

Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 概要
ステップ𝑡

内部ステップ𝑖
内部で学習して
良い行動𝑎 𝑡 を
返せるようにする

環境
報酬がわからないときは
教えてもらう

KWIK学習
入力𝑧 𝑖𝑡 = 𝑥 𝑖𝑡 , 𝑎 𝑖𝑡

𝑡

状態𝑥 ∈ 𝒳

報酬の予測𝑦 𝑖𝑡

FixedStateOpt

行動𝑎 𝑡 ∈ 𝒜

s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 𝑡 ≤ 𝜀
𝑎∈𝒜

16/21

≪Algorithm1≫ 詳細

17/21

≪Algorithm1≫ 【定理】リグレットなしっぽい
【定理】
関数の族ℱΘ 、
ℱΘ に対するKWIK学習アルゴリズム、
Fixed-state optimization algorithm、
適切に選んだ𝜀と𝛿、
十分に大きい𝑇に対して、

≪Algorithm1≫の平均リグレット𝑅 𝑇 /𝑇は、
任意に小さくできる。

18/21

≪Algorithm1≫ 【系】リグレットなし
【系】
関数の族ℱΘ 、
ℱΘ に対するKWIK学習アルゴリズム、
Fixed-state optimization algorithmに対して、
リグレットなしのアルゴリズムが存在する。

【証明】
前スライドの𝜀と𝛿をうまく操作する上位のアルゴリズムを
つくることで証明する。詳細略。
19/21

まとめ
• MAB問題の既存研究を紹介
• 本論文では、状態・行動空間が大きいMAB問題を
扱った
• KWIK学習アルゴリズムと、行動空間だけが大きい
MAB問題のアルゴリズムを使って、効率的に解ける
ことを示した

20/21

Large-Scale Bandit Problems and KWIK Learning

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

Similaire à Large-Scale Bandit Problems and KWIK Learning

Similaire à Large-Scale Bandit Problems and KWIK Learning (10)

Plus de Junya Saito

Plus de Junya Saito (6)

Dernier

Dernier (11)

Large-Scale Bandit Problems and KWIK Learning