Contenu connexe
Similaire à 探索と活用の戦略 ベイズ最適化と多腕バンディット (20)
探索と活用の戦略 ベイズ最適化と多腕バンディット
- 18. ベイズ最適化
GP-UCB (Gaussian Process - Upper Confidence Bound) 評価式
平均 = 活⽤ 分散 = 探索
この2つのトレードオフは β で調節する
GP のカーネルなどもチューニングポイントですが今回は割愛 ...
Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design
http://www-stat.wharton.upenn.edu/~skakade/papers/ml/bandit_GP_icml.pdf
- 20. 多腕バンディッド
適⽤例
• Web の LP や クリエイティブ、表⽰コンテンツの最適化
https://support.google.com/analytics/answer/2844870?hl=ja
- 37. まとめ - ベイズ最適化
GP の事前分布のもとでの知識をつかって「探索と活⽤」する
事前知識を活⽤して評価していないところも推定して⾒切る。
GP はスムーズな関数にフィットするため(ある程度ノイジーなデータに対
してもロバスト)、パラメータに対してある程度連続した変動を持つ問
題の最適化に向く。
連続する選択肢・パラメータ空間の中で最適解を効率的に探索する。
- 41. Reference
* Bayesian Optimization example code (スライドで使⽤したもの)
https://github.com/branch-not-equal/bo
* Multiarm Bandits example code.
https://github.com/johnmyleswhite/BanditsBook.git
* 多腕バンディッド
http://ibisml.org/archive/ibis2014/ibis2014_bandit.pdf
* ベイズ最適化
Bayesian Optimization: From A/B Testing To A-Z Testing / Michael Mozer
https://vimeo.com/109937337
https://www.slideshare.net/nishio/1-70974083