Contenu connexe
Similaire à 情報検索におけるランキング計算の紹介
Similaire à 情報検索におけるランキング計算の紹介 (7)
Plus de Koji Sekiguchi (20)
情報検索におけるランキング計算の紹介
- 6. ランキング計算とクエリ従属性
• クエリ従属
▫ Web登場前から存在。ブール代数モデル、ベクト
ル空間モデル
▫ Lucene/Solr= ブール代数+ベクトル空間モデル
▫ AltaVista
• クエリ独立
▫ Web登場後に発明された。PageRank、HITS
▫ Nutch
▫ Google PageRank
6
Copyright (c) 2013
RONDHUIT
- 8. Luceneのスコア計算
• coord(Q, D) : Qの要素(単語)がDにどのくらいの割合含まれているか
• qn(Q) : クエリの正規化関数
• tf(t in D) : Dに出現する単語tのterm frequency
• tf(t in Q) == 1
• idf(t) : インデックスにおける単語tの希少価値
• b(t) : クエリにおける単語tの重み
• norm(t, D) : Dにおける単語tの重み。長い文書(フィールド)ほどtの価値
は下がる
Copyright (c) 2013
RONDHUIT
8
- 9. PageRank: 計量書誌学での研究
• 論文参照構造の分析:「論文は他の重要な論文
に参照されていると重要である」
• ページPiのPageRank r(Pi)は:
▫ BPi : ページPiを指すページの集合
▫ |Pj| : ページPjからの出リンクの数
Copyright (c) 2013
RONDHUIT
9
- 10. ウェブ有向グラフでの計算例
Copyright (c) 2013
RONDHUIT
10
3
1
2
5
4
6
ro(Pi)=1/6 (i=1..6) とすると、
r1(P1)=r0(P3)/3=1/18
r1(P2)=r0(P1)/2+r0(P3)/3=5/36
:
- 12. Google行列 G
Copyright (c) 2013
RONDHUIT
12
原始性調整
α : リンクにしたがった
ページ遷移をする割合
確率的調整
a : ぶら下がりノードベクトル
リンクを持たないP2に訪問したら
次はランダムに飛ぶ
- 13. HITS Hypertext Included Topic Search
• 1988年、クラインバーグが発明
• 2001年、Teoma(Ask.comの前身)が採用
• IBMのアルマデン研究所も採用
• 権威とハブ
▫ 権威:たくさんの入リンクを持つページ
▫ ハブ:たくさんの出リンクを持つページ
• ページiは権威得点xiとハブ得点yiの2つの得点を持つ
• HITSは2つのランキングを提示する
▫ 権威ランキング:Google的な検索
▫ ハブランキング:ポータルページを望む場合
13
Copyright (c) 2013
RONDHUIT
- 14. HITS Hypertext Included Topic Search
権威
i
ハブ
i
ハブ
j
権威
j
E : ウェブグラフの有向辺の集合
eij : ページiからページjへの有向辺
14
Copyright (c) 2013
RONDHUIT
- 15. 参考文献
• Apache Lucene Javadoc
▫ http://lucene.apache.org/core/4_3_1/core/org/
apache/lucene/search/similarities/
TFIDFSimilarity.html
• Google PageRank の数理
共立出版
15
Copyright (c) 2013
RONDHUIT