static index pruningについて

坪坂正志
mail : m.tsubosaka(at)gmail(dot)com

参考文献
 D. Carmel+ : Static index prunning for
information retrieval, SIGIR 2001
 S. Buttcher and C. L. A. Clarke : A docment-
centric approach to static index pruning in
text retrieval systems, CIKM 2006

Static index pruningとは
 転置インデックスを作成する際に不要なエ
ントリを除外する
 Lucene 3.6で導入されている
 http://lucene.apache.org/core/3_6_0/api/contrib-
pruning/index.html
 https://issues.apache.org/jira/browse/LUCENE-
1812

例
term 1 (doc1,0.5) (doc2,1.0)

term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)

 転置インデックスのスコアが上のように
なっていたとする

例
term 1 (doc1,0.5) (doc2,1.0)

term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)

 転置インデックスのスコアが上のように
なっていたとする
 term2に関して相対的にdoc 1のスコアは低
い
 そのためterm 2を含むクエリに関してdoc 1が上
位に来る可能性は薄い

例
term 1 (doc1,0.5) (doc2,1.0)

term 2 (doc2,5.0) (doc3,5.0)

 検索結果の上位に影響が薄いエントリは転置
インデックスから除外するというのがstatic
index pruning
 転置インデックスはそのままでクエリ実行時に
pruningするというのはdynamic index pruningと呼
ばれる
 cf : http://www.slideshare.net/tsubosaka/top-kquery

主なアプローチ
 Term-Centric index pruning
 転置インデックスのタームごとに重要度の低い
エントリを削除する手法
 Document-Centric index pruning
 文章ごとに重要度の低いエントリを削除する手
法

Term-Centric index pruning
 Carmelらによるものを紹介
 初めに上位𝑘件まで検索を行うかを決める
 各転置インデックス𝑃 𝑡 に対して
○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡, 𝑑)を
計算する
○ 𝐴(𝑡, d)の内ターム𝑡に関して𝑘番目に大きい値を𝑧 𝑡 と
し、𝜏 𝑡 = 𝜖𝑧 𝑡 とする
○ 𝐴 𝑡, 𝑑 ≤ 𝜏 𝑡 となる文章𝑑を転置インデックスから全
て除外する

例
term (doc1,0.5) (doc2,2.0) (doc3,5.0)

 𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、
𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが
doc 1は除外される

この方法によって保証される結果
削除後の転置インデックスに対して上位𝑘件
までの問い合わせ𝑞 = (𝑡1 , … , 𝑡 𝑟 )を行った時
に上位𝑘件の文章のスコア𝑆 ∗ は元のスコア𝑆 𝑞
𝑞
に対して
 1 − 𝜖𝑟 𝑆 𝑞 ≤ 𝑆 ∗ ≤ 𝑆 𝑞
𝑞
 が成立する

論文における実験結果
 𝑘 = 10のとき
 上位10件(P@10)の精度はある程度pruning
してもあまり変化しない

Document-centric index pruning
 termごとではなく各文章ごとにその文章に
おいて重要度が高いtermのみを残して、あ
とはエントリから除外する

例
term 1 (doc1,1) (doc2,1)

term 2 (doc1,1) (doc2,10) (doc3,10)

 Term-centric approachでは上の例ではdoc1に関
するエントリが全て削除される
 一方doc 2においてはterm 1は相対的に重要な
単語ではないが削除されない
 文章の方から見ることによってdoc1は残して
doc 2のterm 1に関するエントリを削除するの
がDocument-centric approach

スコア基準
 文章中で単語が出現する確率とコーパス全体に
おける確率のダイバージェンスを基準にする
𝑀𝐷 𝑡
 𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log( )
𝑀∗ 𝑡
 ここで𝑀 𝐷 𝑡 は文章Dにおいて単語tが出現する確率
 𝑀∗ 𝑡 はコーパス中での単語tが出現する確率
 このスコアが上位のもののみ転置インデックス
に格納する
 BM25などのスコアリング関数とは独立した基
準となっている

論文における実験結果
 Term-centric pruning(TCP)よりも同レベルの
pruningではDocument-centric pruningの方が良
い結果となった
 𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転置インデックスに入れたもの、
𝐷𝐶𝑃 𝐶𝑜𝑛𝑠𝑡 は上位21件を転置インデックスに入れたも
の

関連文献
 Static index pruning for information retrieval
systems: a posting-based approach, LSDS-IR
2009
 Term-centric approachとDocument-centric approach
でのスコアを合わせた形のものを利用してpruning
 Resln: a combination of results caching and
index pruning for high-performance web search
engines, SIGIR 2008
 Pruningしたindexに問い合わせを行い、結果が得ら
れなかった際にはfull-indexに対して問い合わせる

static index pruningについて

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (10)

Similaire à static index pruningについて

Similaire à static index pruningについて (12)

Plus de 正志坪坂

Plus de 正志坪坂 (13)