Contenu connexe Similaire à static index pruningについて Similaire à static index pruningについて (12) static index pruningについて2. 参考文献
D. Carmel+ : Static index prunning for
information retrieval, SIGIR 2001
S. Buttcher and C. L. A. Clarke : A docment-
centric approach to static index pruning in
text retrieval systems, CIKM 2006
3. Static index pruningとは
転置インデックスを作成する際に不要なエ
ントリを除外する
Lucene 3.6で導入されている
http://lucene.apache.org/core/3_6_0/api/contrib-
pruning/index.html
https://issues.apache.org/jira/browse/LUCENE-
1812
4. 例
term 1 (doc1,0.5) (doc2,1.0)
term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)
転置インデックスのスコアが上のように
なっていたとする
5. 例
term 1 (doc1,0.5) (doc2,1.0)
term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)
転置インデックスのスコアが上のように
なっていたとする
term2に関して相対的にdoc 1のスコアは低
い
そのためterm 2を含むクエリに関してdoc 1が上
位に来る可能性は薄い
6. 例
term 1 (doc1,0.5) (doc2,1.0)
term 2 (doc2,5.0) (doc3,5.0)
検索結果の上位に影響が薄いエントリは転置
インデックスから除外するというのがstatic
index pruning
転置インデックスはそのままで クエリ実行時に
pruningするというのはdynamic index pruningと呼
ばれる
cf : http://www.slideshare.net/tsubosaka/top-kquery
7. 主なアプローチ
Term-Centric index pruning
転置インデックスのタームごとに重要度の低い
エントリを削除する手法
Document-Centric index pruning
文章ごとに重要度の低いエントリを削除する手
法
8. Term-Centric index pruning
Carmelらによるものを紹介
初めに上位𝑘件まで検索を行うかを決める
各転置インデックス𝑃 𝑡 に対して
○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡, 𝑑)を
計算する
○ 𝐴(𝑡, d)の内ターム𝑡に関して𝑘番目に大きい値を𝑧 𝑡 と
し、𝜏 𝑡 = 𝜖𝑧 𝑡 とする
○ 𝐴 𝑡, 𝑑 ≤ 𝜏 𝑡 となる文章𝑑を転置インデックスから全
て除外する
9. 例
term (doc1,0.5) (doc2,2.0) (doc3,5.0)
𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、
𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが
doc 1は除外される
13. 例
term 1 (doc1,1) (doc2,1)
term 2 (doc1,1) (doc2,10) (doc3,10)
Term-centric approachでは上の例ではdoc1に関
するエントリが全て削除される
一方doc 2においてはterm 1は相対的に重要な
単語ではないが削除されない
文章の方から見ることによってdoc1は残して
doc 2のterm 1に関するエントリを削除するの
がDocument-centric approach
14. スコア基準
文章中で単語が出現する確率とコーパス全体に
おける確率のダイバージェンスを基準にする
𝑀𝐷 𝑡
𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log( )
𝑀∗ 𝑡
ここで𝑀 𝐷 𝑡 は文章Dにおいて単語tが出現する確率
𝑀∗ 𝑡 はコーパス中での単語tが出現する確率
このスコアが上位のもののみ転置インデックス
に格納する
BM25などのスコアリング関数とは独立した基
準となっている
15. 論文における実験結果
Term-centric pruning(TCP)よりも同レベルの
pruningではDocument-centric pruningの方が良
い結果となった
𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転置インデックスに入れたもの、
𝐷𝐶𝑃 𝐶𝑜𝑛𝑠𝑡 は上位21件を転置インデックスに入れたも
の
16. 関連文献
Static index pruning for information retrieval
systems: a posting-based approach, LSDS-IR
2009
Term-centric approachとDocument-centric approach
でのスコアを合わせた形のものを利用してpruning
Resln: a combination of results caching and
index pruning for high-performance web search
engines, SIGIR 2008
Pruningしたindexに問い合わせを行い、結果が得ら
れなかった際にはfull-indexに対して問い合わせる