SlideShare a Scribd company logo
1 of 30
確率的バンディット問題
小宮山 純平 (東京大学中川研究室 D2)
junpeikomiyama atmark gmail.com
はじめに
Multi-armed Bandit問題(バンディット問題)の
もっとも標準的なモデル(確率的バンディット
問題)に関して説明する
この分野では2010年以降に最適なアルゴリズム
の研究が進んだため、その点について中心に説
明する
2
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
3
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
4
確率的バンディット問題
アーム数: 𝐾, ラウンド数: 𝑇
予測者(システム)は各ラ
ウンド 𝑡=1,2,…Tに、アーム
𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報
酬𝑋𝐼 𝑡 𝑡 を受け取る.
目的: 総報酬の最大化
Maximize 𝑡=1
𝑇
𝑋𝐼 𝑡 (𝑡)
5
(image from
http://www.directgamesroom.com )
arm
例:オンライン広告
ラウンド=ユーザの訪問
アーム=広告
報酬=クリック
6
総クリック数を最大化する広告選択
バンディット問題と確率分布
確率的設定:
・各アームごとに確率分布
を持っていて、選んだアー
ムの確率分布からi.i.d.で報
酬が引かれる
𝑋𝐼 𝑡 𝑡 ∼ 𝜈𝐼𝑡
7
(image from
http://www.directgamesroom.com )
arm
バンディット問題と確率分布 (続)
アームの報酬確率分布が何らかの族に入っていることを
仮定
例1:Bernoulli分布族(確率𝜇𝑖で報酬1, 確率1 − 𝜇𝑖で報
酬0、1パラメータの推定)
例2:正規分布族(平均と分散の2パラメータを推定)
先ほどのオンライン広告の場合はBernoulli分布族(ク
リック/非クリックの2値)
この発表では簡単のためBernoulli分布族を仮定
8
バンディット問題の最適戦略
各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす
る(注. アルゴリズムはこの順番を知らない)
もし{𝜇𝑖}を全て知っているなら
→常に𝜇1を選び続けるのが最善
Tラウンドでの期待累計報酬=𝜇1 𝑇
・実際は各アームの期待報酬を知らないので、それ
ぞれの期待報酬を類推しながらアームを選んでいく
必要がある
9
探索と活用のトレードオフ
探索:全アームを均等に調べる
→𝜇1, … . , 𝜇 𝐾を正確に推定したい
活用:一番良いアームを選びたい
→アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く
→高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー
ムがたまたま良いように見えてしまうことがある
良いアルゴリズム=探索と活用をバランスできるアルゴ
リズム
10
Regret (評価手法)
最適なアーム選択(=𝜇1を毎回選ぶ)とアルゴ
リズムの選択の差
𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 = 𝜇1 𝑇 −
𝑖
𝐾
𝜇𝑖 𝑁 𝑇 (𝑖)
アルゴリズムの目標
→𝐸 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 の最小化(小さいほど良い)
→最適でないアームを引く数𝐸[𝑁𝑖(𝑇)]の最小化
11
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
12
Regret下限 [Lai&Robbins 1985]
強一致性を持つ(任意のアーム集合と𝛼 > 0に対
してregretが𝑜(𝑇 𝛼)になる)アルゴリズムに関し
て
𝐸 𝑁𝑖(𝑇) ≥
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
この下限と一致する満たすアルゴリズムが最適
なアルゴリズム
・𝑜(log 𝑇 )な項は無視
13
Regret下限の直観的イメージ
期待値が𝜇𝑖のベルヌーイ分布からサンプルした
とき、その経験期待値 𝜇𝑖が𝜇1以下だと確信でき
るために必要なサンプル数が
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
程度
14
𝜇1
𝜇𝑖
𝜇𝑖
Cramer-Chernoffの定理
確率分布𝜇𝑖の推定値 𝜇𝑖 =
1
𝑁(𝑖) 𝑠=1
𝑁(𝑖)
𝑋𝑖,𝑠 に対して
Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup
𝜃
𝜃𝑎 − 𝜆 𝜃 ,
where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖],
Bernoulli分布なら sup
𝜃
𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので
以下のChernoffのバウンドが得られる
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
15
Chernoffのバウンドと情報複雑性
Chernoffのバウンド
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
から、 𝑁(𝑖)=
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
のとき
Pr 𝜇𝑖 > 𝜇1 = 1/𝑇
これよりほんの少しだけたくさんサンプルすると
Pr 𝜇𝑖 > 𝜇1 =
1
𝑇1+𝛼 (𝛼 > 0)になり、
𝑡
1/𝑡1+𝛼 = 𝑂(1)
16
Chernoffのバウンドと情報複雑性 (続)
情報複雑性 (information complexity)=アームiが
アームj (j<i)の平均𝜇 𝑗を上回らないことを確認す
るためのサンプル数
IC(i, j) =
log 𝑇
𝑑(𝜇 𝑖,𝜇 𝑗)
17
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
18
アルゴリズム: UCB1 [Auer+2002]
各アームに次のUCB1 indexを設定し、各ラウン
ドで最大indexのアームを選択する
𝐵 𝑈𝐶𝐵 𝑖 = 𝜇𝑖 +
2log(𝑇)
𝑁 𝑖(𝑡)
経験期待値(活用)+あまり引いていないアー
ムの不確定性(探索)
19
活用 探索
UCB1のregret
アームを引く数:𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Regret:
𝐸 𝑅 𝑖 =
𝑖≠1
(𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤
𝑖≠1
8log(𝑇)
(𝜇1 − 𝜇𝑖)
UCB1はRegretがO(log 𝑇 )のアルゴリズム
20
UCB1のregret
(再掲)𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖
2により
8log(𝑇)
𝜇1 − 𝜇𝑖
2
≥
16 log 𝑇
𝑑 𝜇𝑖, 𝜇1
>
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
というわけで、UCB1のregretはtightではない
これ以降紹介する3つのアルゴリズムは以下の点で最適
lim
𝑇→∞
𝐸 𝑁𝑖(𝑇) / log 𝑇 →
1
𝑑(𝜇𝑖, 𝜇1)
21
DMED (Deterministic Minimum Empirical Divergence)
[Honda&Takemura 2010]
アームiの経験分布 𝐹𝑖と一番経験平均が高いアー
ムの経験平均 𝜇𝑖∗の間のKL divergenceが
𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で
ある可能性があるアームのリスト」として持つ
𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g.
Newton法、二分法)解けて、双対問題の解と主
問題の解が一致
22
KL-UCB [Garivier+ 2011]
UCBの信頼上限をKL divergenceをもとに厳密化
各ラウンドで、次のKL-UCB indexが最大のアームを
選ぶ
𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖
= max
𝑞∈[ 𝜇 𝑖,1]
{𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )}
𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値
・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける
・3log(log 𝑡 )項は理論的な産物(実際必要かどうか
は不明)
23
Thompson sampling [Thompson 1933]
Bayes推定+Posterior sampling
1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1)
2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大
なものを選ぶ
𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖
3. 報酬を見て確率分布を更新
If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1
太古から知られているアルゴリズムだが、最適性の証明はごく最近
[Agrawal&Goyal 2011, Kaufmann+2012]
24
補足:Beta分布
平均:
𝛼 𝑖
𝛼 𝑖+𝛽𝑖
, 最頻値:
𝛼 𝑖−1
𝛼 𝑖+𝛽𝑖+2
, 分散
𝛼 𝑖 𝛽𝑖
𝛼 𝑖+𝛽𝑖
2(𝛼 𝑖+𝛽𝑖+1)
25
(図はwolfram alphaから引用)
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
26
バンディット問題のregret
基本的に2アーム (アーム1とアームi) だけ考えれ
ばOK
{アームiが選ばれる} = {アーム1が過小評価され
る} or {アームiが過大評価される}
27
𝜇1
𝜇𝑖
バンディット問題のregret (続)
以下の構造はすべての最適なアルゴリズムで(おそら
く)同一
アーム1はO(T)でサンプルされるので経験期待値が真の
期待値に近い→{アーム1が過小評価される}ことは少ない
→𝑂 1
{アームiが過大評価される}イベントはアームiの経験期待
値が 𝜇1 ∼ 𝜇1に近づくかどうか→先ほどの情報複雑性に依
存
→
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
+ 𝑜(log 𝑇 )
28
Thompson samplingのregret
アームiが引かれるイベントを分解
𝐼𝑡 = 𝑖
≤ 𝑁1 𝑡 ≤ 𝑡 𝑏 ∪ 𝜃1 ≤ 𝜇1 − Δ ∪ 𝜃𝑖 > 𝜇1 − Δ
29
アーム1が
O(t)のペースで
引かれていない
→𝑂 1
アームiを
過大評価
→
(1+𝜖)log 𝑇
𝑑(𝜇 𝑖,𝜇1)
+ 𝑂(
1
𝜖2)
(アーム1がO(t)で
引かれる仮定で)
アーム1を
過小評価→𝑂 1
(Δはとても小さい値)
まとめ
確率的バンディット問題について解説した
 Regret=最適でないアームを引いた回数でアルゴ
リズムを評価
 最適でないアームを引く回数の下限(理論上
限)は、情報複雑性によって決められる
 UCB1はO(log 𝑇 )だが、最適ではない
 DMED, KL-UCB, TSは最適(情報複雑性による下
限と一致するregret上限を持つ)
30

More Related Content

What's hot

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 

What's hot (20)

勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 

More from jkomiyama (7)

バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
暴れまわるティラノサウルス
暴れまわるティラノサウルス暴れまわるティラノサウルス
暴れまわるティラノサウルス
 
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
 
ICML2015概要
ICML2015概要ICML2015概要
ICML2015概要
 
Annals of Statistics読み回 第一回
Annals of Statistics読み回 第一回Annals of Statistics読み回 第一回
Annals of Statistics読み回 第一回
 
20150331annstat preview
20150331annstat preview20150331annstat preview
20150331annstat preview
 
WWW2014勉強会発表
WWW2014勉強会発表WWW2014勉強会発表
WWW2014勉強会発表
 

Recently uploaded

Recently uploaded (10)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

確率的バンディット問題