Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning

論文紹介ゼミ
Generating Better Search Engine Text Advertisements
with Deep Reinforcement Learning
北海道大学大学院情報科学研究科
調和系工学研究室
修士2年吉田拓海

論文情報
• タイトル
– Generating Better Search Engine Text Advertisements with
Deep Reinforcement Learning
• 学会
– KDD2019(Applied Data Science Track Papers)
• https://www.kdd.org/kdd2019/accepted-papers/view/generating-better-
search-engine-text-advertisements-with-deep-reinforcement
– 著者
• John Hughes1*, Keng-Hao2 Chang and Ruofei Zhang2
– 1. UC Berkeley (*. Microsoftのインターン)
– 2. Microsoft
• まとめ
– 魅力的(高CTR)な検索エンジン広告を生成
• Self Critical Sequence Training(SCST)を適用
– 微分不可能なmetric(予想クリック率)を最適化
• 自動評価と人間による評価
– SCSTの適用によって予想クリック率の向上，魅力の向上を実証
– 文法的精度を大きく低下させない
1

背景
• 高いクリック率(広告が魅力的で関連性がある)場合
広告主と検索エンジンの両方に利益をもたらす
– ユーザがクリックしたときのみ支払い(広告主→検索エンジン)
• 検索エンジンの広告文生成
– 2つの目的
• 人間が作ったものに近い
• 高いクリック率
2
ランディングページと広告の例

対象とする広告
• 検索エンジン(Bing)
3
クエリ
広告タイトル
広告本文
クリック
ランディングページ
広告タイトル/本文を
ランディングページのタイトル/本文から生成

モデル
• 広告のタイトルと本文の予測をseq2seqとして扱う
– landing pageのタイトルと本文
– 広告のタイトルと本文
• 損失関数
– 既存のlanding page(𝑦∗)と広告(𝑥∗)を模倣するように学習
– CTR(クリック率)を高めるように学習
– 最終的な損失関数
4

モデル
• CTRを高める学習のための項
– 𝐶𝑇𝑅(𝑦)
• oracle modelによって予測された広告𝑦のCTR
• 先行研究(Microsoft)のCTR予測モデル[1]を使用
– large-scale logistic regression
5
[1] X. Ling, W. Deng, C. Gu, H. Zhou, C. Li, and F. Sun. Model ensemble for clickprediction in bing
search ads. InProceedings of the 26th International Conferenceon World Wide Web Companion,
pages 689–698. International World Wide WebConferences Steering Committee, 2017.

モデル
• Parallel Encoder/Decoder
– 標準的なRNNのEncoder-Decoderモデルをもとに構築
• 𝑘 sequencesを単一の潜在状態𝑠にencode
– Bi-directional LSTMの最終層の隠れ状態を結合することで𝑠を取得
• 𝑙 sequencesを出力(decode)
– 𝑠を初期状態とするLSTMでタイトル𝑦 𝑇
, 本文𝑦 𝐵
を予測
6
𝑘 = 𝑙 = 2
概略図

モデル
• Attention
– attention score[1,2]
– normalized scores[3]
• 過去ステップのscoreを用いて正規化
– context vector
7
参考
[1] M. Luong, H. Pham, and C. D. Manning. Effective approaches to attention-based neural machine
translation.CoRR, abs/1508.04025, 2015.
[2] R. Paulus, C. Xiong, and R. Socher. A deep reinforced model for abstractive summarization.arXiv
preprint arXiv:1705.04304, 2017.
[3] B. Sankaran, H. Mi, Y. Al-Onaizan, and A. Ittycheriah. Temporal attention model for neural
machine translation.CoRR, abs/1608.02927, 2016.
文献[2]から引用

encoder
decoder
モデル
• Output
– decoderのタイムステップ𝑖では以下のものが出力される
• LSTMのhidden state ℎ𝑖
𝐷
• attention distributions 𝛼𝑖,𝑗
𝑥 𝑇
, 𝛼𝑖,𝑗
𝑥 𝐵
• context vectors 𝑐𝑡
𝑥 𝑇
, 𝑐𝑡
𝑥 𝐵
– これらから潜在的単語出力分布𝑝 𝑣𝑜𝑐𝑎𝑏, 𝑝𝑐𝑜𝑝𝑦を予測する
8
[1] R. Paulus, C. Xiong, and R. Socher.
A deep reinforced model for abstractive
summarization.arXiv preprint
arXiv:1705.04304, 2017.
文献[1]から持ってきた図
(前ページの文献[2])

モデル
• Output
– 最終的な出力
9
𝑊𝑒𝑚𝑏:単語の埋め込み行列(LSTM入力前にも使用)
学習するパラメータ
• 4つのLSTM
• 𝑊𝑒𝑚𝑏, 𝑊𝑝
• 𝑏 𝑢
𝐷
, 𝑊𝑢
𝐷
• （attentionは？）
参考
[1] A. See, P. J. Liu, and C. D. Manning. Get to the point: Summarization withpointer-generator networks.CoRR, abs/1704.04368, 2017.
[2] https://www.slideshare.net/ponta63/gettothepointacl17
新しい単語を生成
原文の単語を使いまわす

モデル
• Output 図[1]
10
[1] A. See, P. J. Liu, and C. D. Manning. Get to the point: Summarization
withpointer-generator networks.CoRR, abs/1704.04368, 2017.
context vectorとDecoder(LSTM hidden state)
から単語分布を得る

モデル
• Output 図[1]
11
[1] A. See, P. J. Liu, and C. D. Manning. Get to the point: Summarization
withpointer-generator networks.CoRR, abs/1704.04368, 2017.
𝑝 𝑣𝑎𝑐𝑎𝑏
新しい単語を生成
𝑝𝑐𝑜𝑝𝑦
原文の単語を使いまわす(copy)
スイッチ変数：𝑢

モデル
• Self Critical Sequence Training
– CTRに関する誤差項𝐿 𝐶𝑇𝑅は𝜃で微分できない
– RAINFORCE trick[1]を使って勾配を計算
– Self Critical Sequence Trainingではベースライン 𝑦を導入
• これによって分散が下がる
• ベースライン 𝑦としてarg-maxの出力を使用
12
参考
[1] R. J. Williams. Simple statistical gradient-following algorithms for
connectionistreinforcement learning.Machine Learning, 8:229–256, 1992.
[2] https://www.slideshare.net/YoshitakaUshiku/selfcritical-sequence-training-for-image-
captioning-cv-cvpr-2017

モデル
• Self Critical Sequence Training
13
(A) 𝑦が 𝑦より高い報酬だった場合
𝑦がとられる確率が増加
(B) 𝑦が 𝑦より低い報酬だった場合
𝑦がとられる確率が減少

実験データ
• Bing Ads Data
– ランディングページと広告のペア
• 600,000
– 各ドメインで5回以上出現する例を削除
• 少数の広告主が広告の大部分を占めている
• その多くが同じテンプレートを使っている
– 結果として323,387に
• train, validation, testに分割
– ランディングページを正規化
• 句読点を含まない，すべて小文字に
– 広告も同様に正規化
• ?, -は残す
14

実験
• Training
– 事前学習
• 𝐿 𝑋𝐸で学習
– そのあと𝐿 𝑡𝑜𝑡𝑎𝑙で学習(Self Critical Sequence Training)
– 学習中CTRを推定するためにCTR予測で学習させたoracle modelを
使用
• 学習中はブラックボックスとして扱われる
• 同じくmicrosoftの人が著者の先行研究のCTR予測モデル[1]を使用
– large-scale logistic regression
15
[1] X. Ling, W. Deng, C. Gu, H. Zhou, C. Li, and F. Sun. Model ensemble for clickprediction in bing
search ads. InProceedings of the 26th International Conferenceon World Wide Web Companion,
pages 689–698. International World Wide WebConferences Steering Committee, 2017.

実験
• Automatic Evaluation
– Click Rate
• oracle modelとまた別のCTR予測モデルの出力値
– ROUGE-L
• 2つのtextの最長共通部分単語列(LCS)を評価する指標
– LCS: Longest Common Subsequence
• LCSのF値
• 例[1]
– LCS = 9
– 適合率(Precision)=
9
12
– 再現率(Recall)=
9
11
– ROUGE-L=
2𝑅𝑒𝑐𝑎𝑙𝑙∙𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
𝑅𝑒𝑐𝑎𝑙𝑙+𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
16
長さ
𝑟: 11
ℎ1: 12
参考
[1]平尾努, 磯崎秀樹, 須藤克仁, Duh Kevin, 塚田元, 永田昌明, “語順の相関に基づく機械翻訳の自動評価法” 自然言語処理,
Vol.21, No.3, pp.421-444, 2014, https://www.jstage.jst.go.jp/article/jnlp/21/3/21_421/_article/-char/ja/

実験結果
– 𝛾 = 0.05が最適
– 𝛾 = 0.02
• ROUGE-Lが急速に減少，oracleにoverfitし文法的質が悪い分が生成さ
れる，early stoppingですぐ終わる(学習)
– 𝛾 = 0.10
• クリック率が低い
17
oracle modelと同じデータセット(別の期間)で
学習させたニューラルネットによるCTR予測

実験結果
– Baseline(おそらく𝐿 𝑋𝐸のみで学習)とSCSTを比較
• クリック率を6.7%増し
• ROUGE scoreに有意な差はない
– DNN Predictionによるクリック率も4.8%増し
• oracle modelにoverfitしてない
– ROUGE scoreはどのモデルも有意差なし
– クリック率が増えてもROUGE scoreが大幅に変化しない
• クリック率が高い人手で書かれた広告の空間内で最適化されてる
18

実験結果
– SCSTで学習させたモデルは同じ単語，フレーズを繰り返す傾向
• 恐らくoracle modelで魅力的とされる単語を繰り返してる
– 繰り返さないように制約をかける(repeats masked)
• クリック率は低下する
• 先ほどと同様，SCSTによってクリック率は上昇
19

実験結果
• Human Evaluation
– 2つの実験を実施
• 広告を評価及び比較するために訓練された人を募集した
– 実験1
• 被験者に単一の広告とランディングページが表示，以下の質問
– 広告に不要な単語，フレーズの繰り返しはありますか？
[Yes/No]
– 広告のタイトルとコピー(?)は人間が書いたように見えるか？
[Yes/No]
– 4段階評価[Good/Fair/Bad/Nonsenseor Broken]
» Good: Perfect grammar(完璧な文法)
» Fair: Slight grammar errors or repeats(軽い文法エラー/繰り返し)
» Bad: Major grammar errors or repeats(重大な文法エラー/繰り返し)
» Nonsense or Broken: Including foreign language or landing page
not loading (外国語が含まれる/LPが読み込まれない?)
• 各モデルを評価するために2000 data point
• どの例がどのモデルのモノかわからないようにシャッフル
• 質問の回答が一貫するようにいくつかの広告を繰り返した
20

実験結果
– 繰り返しの制約をつけたモデル(repeats masked)は
文法と人間作との類似度の評価が向上
– Baseline(masked)とSCST(masked)を比較
• SCSTの生成する広告は人間作に似ているとみなされる
• “Good”は減るがそれほど大きくない
– SCSTは文法的質を低下させない(?)
– 事前学習で得た言語モデルを傷つけない
– Nonsense/Brokenが多い
• ランディングページの期限切れ，外国語によるもの
– 人間作の広告も同様の割合
21

実験結果
– 実験2
• repeats maskedモデルを対象(繰り返しに制約をかけたモデル)
• 1000のランディングページの広告を並べて比較
• 2つの広告をランディングページに関連付けられたキーワード/クエリと
ともに表示
• 質問：クエリが与えられた場合，どの広告コピーが好みですか？
[Ad copy #1 / Ad copy#2 / Ads are identical]
• 広告はランダムな順序で表示
– 結果
• Baseline < SCST
22

生成例
• SCSTモデルの広告
– 無料，行動を表すフレーズ，数字などが含まれる
• 広告の魅力を高めることが知られている[1]
23
[1] S. Thomaidou. Automated Creation and Optimization of Online Advertising Campaigns. PhD thesis, Ph. D.
thesis, Department of Informatics, Athens University of Economics and Business, 2014.

まとめ
• 魅力的(高CTR)な検索エンジン広告を生成
– Self Critical Sequence Training(SCST)を適用
• 微分不可能なmetric(予想クリック率)を最適化
– 自動評価と人間による評価
• SCSTの適用によって予想クリック率の向上，魅力の向上を実証
• 文法的精度を大きく低下させない
25

Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning

Similaire à Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning (20)

Plus de harmonylab

Plus de harmonylab (20)

Dernier

Dernier (8)

Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning