Contenu connexe
Plus de Hirotaka Niisato (16)
RandomSortFieldとMahoutのCtr比較について
- 2. 自己紹介
• やってること
– AP、インフラ、NW … etc
– 最近はJava多め
– OSS:SIPropの中に居ます
• Solrの利用
– 9199.JP街検索
ローカルエリア検索
1.3から1.4へ移行
– GMOとくとくショップ
グループの店舗・商品データ
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 3. Randomなデータを表示させたい欲求・要望
毎回違うデータを表示したい
とりあえず何か出したい
似たようなコンテンツが良い
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 4. ランダムデータを掲出する理由
サーチエンジン対策
(とにかく何かリンクが欲しい)
PV増やしたい!!
・CTR(Click Through Rate)
・Conversion Rate コストかけたくなーぃ
・巡回率上げたい
特集ページは? 自然な感じでお願い♪
・プロモーション
・キャンペーン
ランダムで・・・
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 5. Solrでランダム
• schema.xmlに追加(1.4)
<fieldType name="random" class="solr.RandomSortField"
indexed="true" />
<dynamicField name="random*" type="random" />
• クエリ
– sort=randomSSS
– SSSはシードの文字列
– シードが同じ場合、検索結果も同じになる
• シードのローテーション
– AP側でシードを制御
– yyyymmddhh形式のシードにして時間・日
次のシードを生成
• レコメン的
– 検索されたキーワード
商品と同じ
– 同じカテゴリ カテゴリorキーワード
– 似たような価格帯
※ MoreLikeThisという選択肢も
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 6. レコメンド
• Mahoutを利用
– 機械学習のアルゴリズムが豊富
• ベイジアン、K平均法、SlopeOne、K近傍法、
SVD…
– Hadoopとの親和性
• ログ解析とスコア
– 日次で20Gbyte程度のログを対象
– Hadoopを使ってログ解析、スコアを生成
– アルゴリズム
• 最尤法, Tanimoto係数, k近傍法
• レコメン結果商品の更に先も対象
– フィルター
• 一見さんをどうするか・・・
• スパム的に商品を見ているユーザ
• スコアが低すぎるのは間引く
この商品を見た人は
• 表示される商品
– 似たような商品 こんな商品も見てます
– 合わせて買う商品
– 掘り起こしの効果
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 7. パフォーマンス
• 表示エリアの工夫
出し位置を変えてみたり・・・
• インプレッション(インプレッション数/全体PV )
– レコメンド
avg: 22.8%, max: 29.6%, min: 18.7%
– Solr
avg: 58.1%, max: 70.4%, min: 52.6%
80.0%
60.0%
掲出率
40.0%
20.0%
0.0%
day
レコメンエリア
2001/1/25 2001/2/1
recommend(mahout)
category keyword match(solr)
• CTR(クリック数/インプレッション数)
– レコメンド
avg: 8.4%, max: 9.0%, min: 7.1%
– Solr
avg: 1.8%, max: 2.1%, min: 1.6%
10.0%
8.0%
6.0%
Solr Randomエリア
ctr
4.0%
2.0%
0.0%
2001/1/25 2001/2/1 day
recommend(mahout)
category keyword match(solr)
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 8. リファラの利用
• 検索エンジン経由のユーザが8割以上
– リファラ+カテゴリ+RandomSortFieldに変更
• インプレッション
– レコメンド
avg: 30.7%, max: 34.2%, min: 27.8%
– Solr
avg: 66.9%, max: 70.2%, min: 66.1%
80.0%
60.0%
掲出率
40.0%
20.0%
0.0%
01/1/25 01/2/1 01/2/8 day
recommend(mahout)
category keyword match(solr)
• CTR
– レコメンド
avg: 8.0%, max: 8.3%, min: 7.4%
– Solr
avg: 3.1%, max: 3,8%, min: 2.6%
10.0%
8.0%
6.0%
ctr
4.0%
2.0%
0.0%
01/1/25 01/2/1 01/2/8 day
recommend(mahout)
category keyword match(solr)
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.
- 9. 終わりに…
• カテゴリ、キーワード、リファラと組合せるとGood
– 商品名を形態素解析してマッチするのもアリかも
• レコメンドはデータが無い場合、表示が無い
– CTRは高い半面、データ次第で表示されない
– 補完する意味で、RandomSortField
• RandomSortFieldを使うと
– 商品のカテゴリにマッチして
– 検索キーワードやリファラをキーに
それっぽい雰囲気の商品が表示できる
Copyright (C) 2007 GMO Internet, Inc. All Rights Reserved.