SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
参考文献
 D. Carmel+ : Static index prunning for
  information retrieval, SIGIR 2001
 S. Buttcher and C. L. A. Clarke : A docment-
  centric approach to static index pruning in
  text retrieval systems, CIKM 2006
Static index pruningとは
 転置インデックスを作成する際に不要なエ
  ントリを除外する
 Lucene 3.6で導入されている
     http://lucene.apache.org/core/3_6_0/api/contrib-
      pruning/index.html
     https://issues.apache.org/jira/browse/LUCENE-
      1812
例
    term 1   (doc1,0.5)   (doc2,1.0)


    term 2   (doc1,0.1)   (doc2,5.0)   (doc3,5.0)




   転置インデックスのスコアが上のように
    なっていたとする
例
    term 1    (doc1,0.5)   (doc2,1.0)


    term 2    (doc1,0.1)   (doc2,5.0)   (doc3,5.0)




 転置インデックスのスコアが上のように
  なっていたとする
 term2に関して相対的にdoc 1のスコアは低
  い
     そのためterm 2を含むクエリに関してdoc 1が上
       位に来る可能性は薄い
例
    term 1            (doc1,0.5)   (doc2,1.0)


    term 2                         (doc2,5.0)   (doc3,5.0)



   検索結果の上位に影響が薄いエントリは転置
    インデックスから除外するというのがstatic
    index pruning
     転置インデックスはそのままで クエリ実行時に
      pruningするというのはdynamic index pruningと呼
      ばれる
     cf : http://www.slideshare.net/tsubosaka/top-kquery
主なアプローチ
   Term-Centric index pruning
     転置インデックスのタームごとに重要度の低い
     エントリを削除する手法
   Document-Centric index pruning
     文章ごとに重要度の低いエントリを削除する手
     法
Term-Centric index pruning
 Carmelらによるものを紹介
 初めに上位𝑘件まで検索を行うかを決める
     各転置インデックス𝑃 𝑡 に対して
      ○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡, 𝑑)を
        計算する
      ○ 𝐴(𝑡, d)の内ターム𝑡に関して𝑘番目に大きい値を𝑧 𝑡 と
        し、𝜏 𝑡 = 𝜖𝑧 𝑡 とする
      ○ 𝐴 𝑡, 𝑑 ≤ 𝜏 𝑡 となる文章𝑑を転置インデックスから全
        て除外する
例
    term      (doc1,0.5)   (doc2,2.0)   (doc3,5.0)




   𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、
    𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが
    doc 1は除外される
この方法によって保証される結果
削除後の転置インデックスに対して上位𝑘件
 までの問い合わせ𝑞 = (𝑡1 , … , 𝑡 𝑟 )を行った時
 に上位𝑘件の文章のスコア𝑆 ∗ は元のスコア𝑆 𝑞
                         𝑞
 に対して
 1 − 𝜖𝑟 𝑆 𝑞 ≤ 𝑆 ∗ ≤ 𝑆 𝑞
                 𝑞
   が成立する
論文における実験結果
 𝑘 = 10のとき
 上位10件(P@10)の精度はある程度pruning
  してもあまり変化しない
Document-centric index pruning
   termごとではなく各文章ごとにその文章に
    おいて重要度が高いtermのみを残して、あ
    とはエントリから除外する
例
    term 1   (doc1,1)   (doc2,1)


    term 2   (doc1,1)   (doc2,10)   (doc3,10)

 Term-centric approachでは上の例ではdoc1に関
  するエントリが全て削除される
 一方doc 2においてはterm 1は相対的に重要な
  単語ではないが削除されない
 文章の方から見ることによってdoc1は残して
  doc 2のterm 1に関するエントリを削除するの
  がDocument-centric approach
スコア基準
   文章中で単語が出現する確率とコーパス全体に
    おける確率のダイバージェンスを基準にする
                               𝑀𝐷 𝑡
   𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log(          )
                               𝑀∗ 𝑡
     ここで𝑀 𝐷 𝑡 は文章Dにおいて単語tが出現する確率
     𝑀∗ 𝑡 はコーパス中での単語tが出現する確率
 このスコアが上位のもののみ転置インデックス
  に格納する
 BM25などのスコアリング関数とは独立した基
  準となっている
論文における実験結果
   Term-centric pruning(TCP)よりも同レベルの
    pruningではDocument-centric pruningの方が良
    い結果となった
     𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転置インデックスに入れたもの、
     𝐷𝐶𝑃 𝐶𝑜𝑛𝑠𝑡 は上位21件を転置インデックスに入れたも
     の
関連文献
   Static index pruning for information retrieval
    systems: a posting-based approach, LSDS-IR
    2009
     Term-centric approachとDocument-centric approach
     でのスコアを合わせた形のものを利用してpruning
   Resln: a combination of results caching and
    index pruning for high-performance web search
    engines, SIGIR 2008
     Pruningしたindexに問い合わせを行い、結果が得ら
     れなかった際にはfull-indexに対して問い合わせる

Contenu connexe

En vedette

Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 

En vedette (10)

KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
NIPS 2012 読む会
NIPS 2012 読む会NIPS 2012 読む会
NIPS 2012 読む会
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 

Similaire à static index pruningについて

VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-Takeshi Yamamuro
 
研究生のためのC++ no.2
研究生のためのC++ no.2研究生のためのC++ no.2
研究生のためのC++ no.2Tomohiro Namba
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)YoheiOkuyama
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節MOTOGRILL
 
今日からできる!簡単 .NET 高速化 Tips
今日からできる!簡単 .NET 高速化 Tips今日からできる!簡単 .NET 高速化 Tips
今日からできる!簡単 .NET 高速化 TipsTakaaki Suzuki
 
R言語勉強会#4.pdf
R言語勉強会#4.pdfR言語勉強会#4.pdf
R言語勉強会#4.pdfTakuya Kubo
 
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)Masahiro Hayashi
 
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料Shintaro Nomura
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)Masahiro Hayashi
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)YoheiOkuyama
 
Text Categorization
Text CategorizationText Categorization
Text Categorizationcympfh
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 

Similaire à static index pruningについて (12)

VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-
 
研究生のためのC++ no.2
研究生のためのC++ no.2研究生のためのC++ no.2
研究生のためのC++ no.2
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節
 
今日からできる!簡単 .NET 高速化 Tips
今日からできる!簡単 .NET 高速化 Tips今日からできる!簡単 .NET 高速化 Tips
今日からできる!簡単 .NET 高速化 Tips
 
R言語勉強会#4.pdf
R言語勉強会#4.pdfR言語勉強会#4.pdf
R言語勉強会#4.pdf
 
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
 
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
 
Text Categorization
Text CategorizationText Categorization
Text Categorization
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 

Plus de 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料正志 坪坂
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7正志 坪坂
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query正志 坪坂
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka正志 坪坂
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet正志 坪坂
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 

Plus de 正志 坪坂 (13)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 

static index pruningについて

  • 2. 参考文献  D. Carmel+ : Static index prunning for information retrieval, SIGIR 2001  S. Buttcher and C. L. A. Clarke : A docment- centric approach to static index pruning in text retrieval systems, CIKM 2006
  • 3. Static index pruningとは  転置インデックスを作成する際に不要なエ ントリを除外する  Lucene 3.6で導入されている  http://lucene.apache.org/core/3_6_0/api/contrib- pruning/index.html  https://issues.apache.org/jira/browse/LUCENE- 1812
  • 4. term 1 (doc1,0.5) (doc2,1.0) term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)  転置インデックスのスコアが上のように なっていたとする
  • 5. term 1 (doc1,0.5) (doc2,1.0) term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0)  転置インデックスのスコアが上のように なっていたとする  term2に関して相対的にdoc 1のスコアは低 い  そのためterm 2を含むクエリに関してdoc 1が上 位に来る可能性は薄い
  • 6. term 1 (doc1,0.5) (doc2,1.0) term 2 (doc2,5.0) (doc3,5.0)  検索結果の上位に影響が薄いエントリは転置 インデックスから除外するというのがstatic index pruning  転置インデックスはそのままで クエリ実行時に pruningするというのはdynamic index pruningと呼 ばれる  cf : http://www.slideshare.net/tsubosaka/top-kquery
  • 7. 主なアプローチ  Term-Centric index pruning  転置インデックスのタームごとに重要度の低い エントリを削除する手法  Document-Centric index pruning  文章ごとに重要度の低いエントリを削除する手 法
  • 8. Term-Centric index pruning  Carmelらによるものを紹介  初めに上位𝑘件まで検索を行うかを決める  各転置インデックス𝑃 𝑡 に対して ○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡, 𝑑)を 計算する ○ 𝐴(𝑡, d)の内ターム𝑡に関して𝑘番目に大きい値を𝑧 𝑡 と し、𝜏 𝑡 = 𝜖𝑧 𝑡 とする ○ 𝐴 𝑡, 𝑑 ≤ 𝜏 𝑡 となる文章𝑑を転置インデックスから全 て除外する
  • 9. term (doc1,0.5) (doc2,2.0) (doc3,5.0)  𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、 𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが doc 1は除外される
  • 10. この方法によって保証される結果 削除後の転置インデックスに対して上位𝑘件 までの問い合わせ𝑞 = (𝑡1 , … , 𝑡 𝑟 )を行った時 に上位𝑘件の文章のスコア𝑆 ∗ は元のスコア𝑆 𝑞 𝑞 に対して  1 − 𝜖𝑟 𝑆 𝑞 ≤ 𝑆 ∗ ≤ 𝑆 𝑞 𝑞  が成立する
  • 11. 論文における実験結果  𝑘 = 10のとき  上位10件(P@10)の精度はある程度pruning してもあまり変化しない
  • 12. Document-centric index pruning  termごとではなく各文章ごとにその文章に おいて重要度が高いtermのみを残して、あ とはエントリから除外する
  • 13. term 1 (doc1,1) (doc2,1) term 2 (doc1,1) (doc2,10) (doc3,10)  Term-centric approachでは上の例ではdoc1に関 するエントリが全て削除される  一方doc 2においてはterm 1は相対的に重要な 単語ではないが削除されない  文章の方から見ることによってdoc1は残して doc 2のterm 1に関するエントリを削除するの がDocument-centric approach
  • 14. スコア基準  文章中で単語が出現する確率とコーパス全体に おける確率のダイバージェンスを基準にする 𝑀𝐷 𝑡  𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log( ) 𝑀∗ 𝑡  ここで𝑀 𝐷 𝑡 は文章Dにおいて単語tが出現する確率  𝑀∗ 𝑡 はコーパス中での単語tが出現する確率  このスコアが上位のもののみ転置インデックス に格納する  BM25などのスコアリング関数とは独立した基 準となっている
  • 15. 論文における実験結果  Term-centric pruning(TCP)よりも同レベルの pruningではDocument-centric pruningの方が良 い結果となった  𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転置インデックスに入れたもの、 𝐷𝐶𝑃 𝐶𝑜𝑛𝑠𝑡 は上位21件を転置インデックスに入れたも の
  • 16. 関連文献  Static index pruning for information retrieval systems: a posting-based approach, LSDS-IR 2009  Term-centric approachとDocument-centric approach でのスコアを合わせた形のものを利用してpruning  Resln: a combination of results caching and index pruning for high-performance web search engines, SIGIR 2008  Pruningしたindexに問い合わせを行い、結果が得ら れなかった際にはfull-indexに対して問い合わせる