SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
探索と活⽤の戦略
ベイズ最適化と多腕バンディッド
PyData.Osaka Meetup#8
2017/09/01 Hiromichi Okazaki
• イントロダクション
• ベイズ最適化
• 多腕バンディッド
• まとめ
⽬次
マーケティング界隈で MA なる⾔葉が流⾏っています。
MA = Marketing Automation
今後の流れとして、様々な分野で、様々なものを組み合わせ
て課題を解決する Automation が増えてくるだろうという予
感を持っています。
不完全な環境の事前知識の中で、
不完全な知識を元に⾏動しながら、
データを蒐集し、
最適な⾏動を⾒つけてゆく
【活⽤】やってみて、良い結果になった⾏動、を続けてする。
【探索】もっと良い結果になる⾏動があるんじゃないか、とたま
に別のこともやってみる
これが探索と活⽤のトレードオフ(exploration- exploitation tradeoff)
探索と活⽤の戦略
しかし...
「過去の経験から⼀番いいと思う⾏動」ばかりをしていたのでは、
もっとよい⾏動を⾒つけることができない。(探索が⾜りない)
しかし...
もっといいものがあるかも!!と「未経験の⾏動」 ばかりをし
ていたのでは、過去の経験が⽣かせな い。(活⽤が⾜りない)
「探索」と「活⽤」のバランスを丁度よく調整しながら最適な⾏動を
(計算⽅法で)⾒つけてゆくのが「探索と利⽤の戦略」の要諦です。
これを今回は、
• ベイズ的な⼿法で「探索と利⽤の戦略」を使った「ベイズ最適化」
• 強化学習に分類されている「バンディッドアルゴリズム」
でみてみたいと思います。
探索と活⽤の戦略
ベイズ最適化
形の分からない関数の最⼤値(最⼩値)を効率的に求める⼿法
適⽤例
• 機械学習のハイパーパラメータ探索
• ゲーム課⾦率が最⼤となる設定の探索
ベイズ最適化
Bayesian Optimization: From A/B Testing To A-Z Testing / Michael Mozer
https://vimeo.com/109937337
ベイズ最適化
形の分からない関数の最⼤値(最⼩値)を効率的に求める⼿法
1. 形の分からない関数をガウス過程(Gaussian Process)に従うと仮定して
Ø ガウス過程を事前分布とすることで、関数の平均・分散を推定できる.
Ø サンプルをガウス過程回帰 (Gaussian Process Regression) する.
2. 「探索と活⽤の戦略」で y を最⼤化する x を探索する
Ø 推定した平均・分散を⽤いて、効率的に最適解を⾒つける(GP-UCB)
Ø 事後分布の平均・分散を⽤いて「探索と活⽤の戦略」を獲得関数で表現
し、それが最⼤を与えるときのパラメータを次の探索パラメータとする
ベイズ最適化
ここが最適解
ベイズ最適化
ベイズ最適化
ベイズ最適化
ベイズ最適化
ベイズ最適化
ベイズ最適化
ベイズ最適化
ベイズ最適化
GP-UCB (Gaussian Process - Upper Confidence Bound) 評価式
平均 = 活⽤ 分散 = 探索
この2つのトレードオフは β で調節する
GP のカーネルなどもチューニングポイントですが今回は割愛 ...
Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design
http://www-stat.wharton.upenn.edu/~skakade/papers/ml/bandit_GP_icml.pdf
多腕バンディッド
限られた試⾏回数において得られる総報酬を最⼤化したい.
多腕バンディッド
適⽤例
• Web の LP や クリエイティブ、表⽰コンテンツの最適化
https://support.google.com/analytics/answer/2844870?hl=ja
多腕バンディッド
なるべく期待値の⾼い台をプレイしたい
多腕バンディッド
? ? ? ?
ある程度の回数プレイしないと台の良し悪しが分からない
報酬の期待値の低い台を何度もプレイすると損
多腕バンディッド
• 複数台のスロットマシンをプレイするギャンブラーのモデル
• 得られる報酬の確率分布は台によって異なる
• なるべく期待値の⾼い台をプレイしたい
問題
• ある程度の回数プレイしないと台の良し悪しが分からない
• 報酬の期待値の低い台を何度もプレイすると損
http://ibisml.org/archive/ibis2014/ibis2014_bandit.pdf
「探索と活⽤の戦略」で
選択
得られたデータを蓄積し
次のスロットの選択に⽣かす
多腕バンディッド
多腕バンディッド reward ~ N(µ = 0.1x + sin(x) +1, σ=0.1)
このスロットが最適解
多腕バンディッド
多腕バンディッド
多腕バンディッド
多腕バンディッド
多腕バンディッド
全てのスロットを数回は引き、期待値を評価する
多腕バンディッド
多腕バンディッド
多腕バンディッド
期待値の⾼いスロットを重点的に引いて探索
多腕バンディッド
最終的に最も期待値の⾼いスロットにフォーカスする
UCB の評価式
全体の合計選択回数
そのアームの選択回数期待値
多腕バンディッド
理論上は「有意⽔準 1/n での信頼区間の上限 (Upper Confidence Bound) が最⼤になる台を
プレイ」ということ(http://ibisml.org/archive/ibis2014/ibis2014_bandit.pdf)
第⼆項はアームを引いた回数が増えるほど⼩さくなる項
• 回数が少ないときは期待値をあまり信じない
• 回数が多くなれば期待値を信頼(ばらつきもほぼ出切っているだろうし)
まとめ
まとめ - ベイズ最適化
GP の事前分布のもとでの知識をつかって「探索と活⽤」する
事前知識を活⽤して評価していないところも推定して⾒切る。
GP はスムーズな関数にフィットするため(ある程度ノイジーなデータに対
してもロバスト)、パラメータに対してある程度連続した変動を持つ問
題の最適化に向く。
連続する選択肢・パラメータ空間の中で最適解を効率的に探索する。
期待値と頻度から得られる知識を使って「探索と活⽤」する
各スロットが独⽴している前提なので、コンテンツのような質的な
関係の最適化問題などに向いている。
統計的仮説検定に基づく従来型の A/B テストよりも効率、統計的優
位性に優れると⾔われている。
まとめ - 多腕バンディッド
まとめ
同じ「探索と活⽤の戦略」を⽤いる2つの最適化アルゴリズ
ムですが、どのような前提の上に⽴っており、どのような問
題に対して⼒を発揮するのか、それぞれの視座から⾒てみま
した。
これらは機械学習や最適化という観点だけでなく、伝統的な AB テスト
に対する別の⼿段としても、様々な分野から注⽬されています。
Q & A
Reference
* Bayesian Optimization example code (スライドで使⽤したもの)
https://github.com/branch-not-equal/bo
* Multiarm Bandits example code.
https://github.com/johnmyleswhite/BanditsBook.git
* 多腕バンディッド
http://ibisml.org/archive/ibis2014/ibis2014_bandit.pdf
* ベイズ最適化
Bayesian Optimization: From A/B Testing To A-Z Testing / Michael Mozer
https://vimeo.com/109937337
https://www.slideshare.net/nishio/1-70974083

Contenu connexe

Tendances

Tendances (20)

最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 

Similaire à 探索と活用の戦略 ベイズ最適化と多腕バンディット

0から始めるhp集客の真髄シリーズ<その3>
0から始めるhp集客の真髄シリーズ<その3>0から始めるhp集客の真髄シリーズ<その3>
0から始めるhp集客の真髄シリーズ<その3>
Tatematsu Digital Solution KK
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
Shigeru Kishikawa
 
141027 シックスアパート様セミナー資料
141027 シックスアパート様セミナー資料141027 シックスアパート様セミナー資料
141027 シックスアパート様セミナー資料
Masaki Suzuki
 

Similaire à 探索と活用の戦略 ベイズ最適化と多腕バンディット (20)

Abeja customer success_20181106
Abeja customer success_20181106Abeja customer success_20181106
Abeja customer success_20181106
 
0から始めるhp集客の真髄シリーズ<その3>
0から始めるhp集客の真髄シリーズ<その3>0から始めるhp集客の真髄シリーズ<その3>
0から始めるhp集客の真髄シリーズ<その3>
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
Startup Science ⑥
Startup Science ⑥Startup Science ⑥
Startup Science ⑥
 
20220422佐賀銀行新入行員研修
20220422佐賀銀行新入行員研修20220422佐賀銀行新入行員研修
20220422佐賀銀行新入行員研修
 
レビューのネガポジ RandomForest vs LSTM
レビューのネガポジ RandomForest vs LSTMレビューのネガポジ RandomForest vs LSTM
レビューのネガポジ RandomForest vs LSTM
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
アタックス・パワーインタラクティブ共催セミナー(5月20日)発表資料(全編)
アタックス・パワーインタラクティブ共催セミナー(5月20日)発表資料(全編)アタックス・パワーインタラクティブ共催セミナー(5月20日)発表資料(全編)
アタックス・パワーインタラクティブ共催セミナー(5月20日)発表資料(全編)
 
データサイエンスの現場で役立つスキルを磨きやすい職場環境
データサイエンスの現場で役立つスキルを磨きやすい職場環境データサイエンスの現場で役立つスキルを磨きやすい職場環境
データサイエンスの現場で役立つスキルを磨きやすい職場環境
 
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
 
Retail 0724 ver2.5_jp
Retail 0724 ver2.5_jpRetail 0724 ver2.5_jp
Retail 0724 ver2.5_jp
 
ABEJA:天下一武闘会プレゼン資料(2018/10/24)
ABEJA:天下一武闘会プレゼン資料(2018/10/24)ABEJA:天下一武闘会プレゼン資料(2018/10/24)
ABEJA:天下一武闘会プレゼン資料(2018/10/24)
 
Agile2010とは何だったのか
Agile2010とは何だったのかAgile2010とは何だったのか
Agile2010とは何だったのか
 
180802_カスタマーサポート業務にAIを活用する際のポイントと事例
180802_カスタマーサポート業務にAIを活用する際のポイントと事例180802_カスタマーサポート業務にAIを活用する際のポイントと事例
180802_カスタマーサポート業務にAIを活用する際のポイントと事例
 
楽天のデータサイエンティスト@SAS Forum 2019
楽天のデータサイエンティスト@SAS Forum 2019楽天のデータサイエンティスト@SAS Forum 2019
楽天のデータサイエンティスト@SAS Forum 2019
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則 NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
 
141027 シックスアパート様セミナー資料
141027 シックスアパート様セミナー資料141027 シックスアパート様セミナー資料
141027 シックスアパート様セミナー資料
 
生産性を上げる 新しい役割 「業務ハック」とは?
生産性を上げる 新しい役割 「業務ハック」とは?生産性を上げる 新しい役割 「業務ハック」とは?
生産性を上げる 新しい役割 「業務ハック」とは?
 
Sit tokyo2021_ANA_SACで機械予測と計画業務の融合性を考えてみた
Sit tokyo2021_ANA_SACで機械予測と計画業務の融合性を考えてみたSit tokyo2021_ANA_SACで機械予測と計画業務の融合性を考えてみた
Sit tokyo2021_ANA_SACで機械予測と計画業務の融合性を考えてみた
 

探索と活用の戦略 ベイズ最適化と多腕バンディット