SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
- 2. Adult Query Classification for Web
Search and Recommendation
• Aleksandr Chuklin, Alisa Lavrentyeva (Yandex)
• Yandex
– ロシアのシェアNo.1検索エンジン
- 10. 利用する特徴
• 大きく以下の2つのアプローチで特徴抽出
– (1) SEarch Result Page (SERP) feature
• 検索結果のadultnessスコアを利用した特徴
• adultnesss スコア [0, 1]
– 各文書に対してあらかじめ付与されたアダルトコンテンツらし
さのスコア
– 具体的な計算方法については記載なし
– (2) Language feature
• クエリのみから抽出する特徴
- 11. (1) SERP features (8 features)
• SERP feature
– 上位N件に存在する adultness > 0 の文書数
– 最上位の adultness スコア
– 上位N件に存在する adultness スコアが以下の範
囲に含まれる数 (4 features)
• [0.25, 0.5), [0.5, 0.75), [0.75, 1.0), [1,0, +∞)
– 上位N件のadultnessスコアの平均と分散 (2
features)
本研究ではN=30と設定
- 12. (2) Language features (1/2)
• Language features
– 全クエリ, black, whiteクエリに対して構築された計3個
の言語モデルを利用
• bi-gramモデル+back-off smoothing を利用
– black言語モデルの例
𝑃𝑏𝑙𝑎𝑐𝑘 𝑄 𝑀 𝑏𝑙𝑎𝑐𝑘 = 𝑃(𝑞𝑖|𝑞𝑖−1; 𝑀 𝑏𝑙𝑎𝑐𝑘)
|𝑄|
𝑖=1
– 言語モデル構築に利用するコーパス:
• SERP featureを用いて構築したblack-whiteクエリ分類器に
よって収集したblack/whiteクエリ
• precision 約90%だそう.量については記載されておらず
- 16. Adult query dataset
• 1889クエリを人手で判別
– white: 1118
– gray: 132
– black: 639
– ※サンプルにはsome well-known black wordsを
利用
- 19. 結果に対する考察
• black, whiteの判別は高精度に達成.grayが
イマイチ
• Language feature がなくても高精度
– 当たり前?
• コーパス作成のblack/white判定にSERP featureを使っ
ているから
• SERPにおけるAdultnessスコアを利用しているから
– 検索結果に出てくる = 当該キーワードを含む
– Adultnessスコア計算にlanguage featureに相当する情報に基
づく特徴が利用されていれば,情報として重複
- 20. 応用例
• (1) ウェブ検索
– クエリが
• blackに分類: フィルタリングを一切せずに検索結果を提示
• whiteに分類: adultnessスコアが閾値𝛼以上のものを排除して結
果を提示
• grayに分類: adultnessスコアが閾値𝛽以上のものを排除して結果
を提示
• (2) クエリ推薦
– 既に入力されたクエリがwhiteに分類された場合,blackク
エリは提示しない
– 既に入力されたクエリがblackに分類された場合は前候補
を提示