4. 2. CLICKTHROUGH DATA IN SEARCH ENGINES
• クリックログについて
– clickthrough data in search engines = (q, r, c)
• q : クエリ
• r : ユーザに提示される検索結果のランキング
• c : ユーザがクリックしたリンク(複数)
2013/10/23
4
6. 2.2 What Kind of Information does
Clickthrough Data Convey?
• クリックログからどんな情報が得られるか?
– (q, r, c) は強く依存しあっている
– 依存関係を適切にモデル化する必要がある
– クエリが違えば、表示される検索結果のランキングは異
なる
– クエリに関連したリンクをクリックしやすい
– ランキングで上位に表示されたリンクをクリックしやす
い
– クリックしたリンクとクエリとの関連性は、絶対的
なものではなく、ユーザが閲覧したリンクの中で、
相対的に関連性が高かったと考える
2013/10/23
6
7. 2.2 What Kind of Information does
Clickthrough Data Convey?
• クリックログからどんな情報が得られるか?
– 下の検索結果10個の内、1・3・7番目をクリックした
場合に、得られる情報は、クエリとリンクの関連性
について、
3番目のリンク > 2番目のリンク
7番目のリンク > 2・4・5・6番目のリンク
2013/10/23
7
8. 2.2 What Kind of Information does
Clickthrough Data Convey?
• クリックログからどんな情報が得られるか?
– 下の検索結果10個の内、1・3・7番目をクリックした
場合
– クエリとリンクの関連性は、
3番目のリンク > 2番目のリンク
7番目のリンク > 2・4・5・6番目のリンク
最適なランキングr*において、3番目のリンクが、
2番目のリンクよりも下にくることを意味する
2013/10/23
8
9. 2.2 What Kind of Information does
Clickthrough Data Convey?
• クリックログからどんな情報が得られるか?
• このような形式のフィードバックに適した機械学習アルゴリズムは
無いので、次章以降で考える
2013/10/23
9
10. 3. A FRAMEWORK FOR LEARNING
OF RETRIEVAL FUNCTIONS
• 最適な情報検索システム
– クエリ q と、文書集合 D = {d1, d2, …, dm} が与えられた
時に、文書をクエリとの関連度順のランキング r* で
返す
• 実際の情報検索システム
– ランキング関数 f を持つ
– 最適なランキング r* とは異なるランキング rf(q) を返
す
– rf(q) が r* に近いほど f は優れている
• ランキング r
– rf(q), r* ⊂ D × D = m × m の2値行列
–
2013/10/23ランキング r で、di のランクがdj よりも高い時、(di,
10
11. 3. A FRAMEWORK FOR LEARNING
OF RETRIEVAL FUNCTIONS
• rf(q) と r* の類似度の指標に、Kendall’s τ を用いる
(Kendall tau distance: http://en.wikipedia.org/wiki/Kendall_tau_distance )
• P : 順位の並びが r* と同じだったペアの
数
• Q :順位の並びが r* と逆だったペアの数
– 例 • m : ドキュメント数
• τ(ra, rb) = (7-3) / (7+3)
= 0.4
– これが情報検索の他の指標と相関したり、関連があること
を述べてる
2013/10/23
11
12. 3. A FRAMEWORK FOR LEARNING
OF RETRIEVAL FUNCTIONS
• ランキング学習の問題定義
– 文書集合 D において、クエリ q と最適なランキング
r* の分布 Pr(q, r*) が与えられた時に、Kendall’s τ を最
大化するランキング関数 f を求める
2013/10/23
12
13. 4. AN SVM ALGORITHM FOR LEARNING
OF RANKING FUNCTIONS
• 学習について
– サイズ n の訓練データ (q1, r1*), (q2, r2*), …, (qn, rn*)が与えら
れた時、学習器 L は、ランキング関数群 F からKendall’s τ
を最大化するランキング関数 f を選択する
– 学習データは有限なので、Kendall’s τ は以下の式で表され
る
• 以下の条件を満たす学習アルゴリズムを考える
– 効率的にランキング関数群 F から Kendall’s τ を最大化する
ランキング関数 f を発見する
– 過学習しない
2013/10/23
13
14. 4.1 The Ranking SVM Algorithm
• 線形ランキング関数 fw
– w : 重みベクトル
– Φ : クエリ q と文書 d を、それらのマッチ具合を表す
特徴ベクトルへ写像する関数
• 特徴ベクトルは実験の章で出てくる
– クエリと文書の単語の類似度とか
2013/10/23
14
28. 5.2 Offline Experiment
1. 他検索エンジンの結果
– top1_X: ranked #1 in X ∈ {Google, MSNSearch, Al- tavista,
Hotbot, Excite} (binary {0, 1})
– top10_X: ranked in top 10 in X ∈ {Google, MSN- Search,
Altavista, Hotbot, Excite} (binary {0, 1})
– top50_X: ranked in top 50 in X ∈ {Google, MSN- Search,
Altavista, Hotbot, Excite} (binary {0, 1})
– rf(q): ranked #1 in X of the 5 search engines
– top10count_X: ranked in top 10 in X of the 5 search
engines
– top50count_X: ranked in top 50 in X of the 5 search
engines
2013/10/23
28
29. 5.2 Offline Experiment
2. クエリと文書のマッチ具合
– query_url_cosine: cosine between URL-words and query
(range [0, 1])
– query_abstract_cosine: cosine between title-words and
query (range [0, 1])
– domain_name_in_query: query contains domain-name
from URL (binary {0, 1})
2013/10/23
29
30. 5.2 Offline Experiment
3. 文書の人気度
– url_length: length of URL in characters divided by 30
– country_X: country code X of URL (binary attribute {0, 1}
for each country code)
– domain_X: domain X of URL (binary attribute {0, 1} for
each domain name)
– abstract_contains_home: word “home” appears in URL or
title (binary attribute {0, 1})
– url_contains_tilde: URL contains “∼” (binary attri- bute {0,
1})
– url_X: URL X as an atom (binary attribute {0,1})
2013/10/23
30