SlideShare une entreprise Scribd logo
1  sur  37
Introduction to Information Retrieval




             Chapter 8:
           Evaluation in IR
引用元(参照先)
• IIRのサイト
  – http://www-csli.stanford.edu/~hinrich/information-retrieval-
    book.html
      • 本と同等の内容を公開
      • Stanford CS276でのSlideを公開


• はてなおやさんの説明スライド
  – http://bloghackers.net/~naoya/iir/ppt/

• Y!J Labs たつをさんによる補足情報
  – http://chalow.net/clsearch.cgi?cat=IIR

• 基本的にこれらの資料を切り貼り、さらに私の知識と分析を
  追加して資料を作成しました
IIR重要部分

• 情報推薦にとっては
 – 6、7、9、18、19章あたりが重要と考え
   ます
  •   6章 scoring(理論より)
  •   7章 scoring(実装より)
  •   8章 評価手法
  •   9章 relevance feedback
  •   18章 Scaleする実装
       – Matrix decompositions, LSI, 特異値分解など
  • 19章 PageRank, HITSなど
IIR 08: Table of contents
• 8 Evaluation in information retrieval 151
   –   8.1 Information retrieval system evaluation 152
   –   8.2 Standard test collections 153
   –   8.3 Evaluation of unranked retrieval sets 154
   –   8.4 Evaluation of ranked retrieval results 158
   –   8.5 Assessing relevance 164
        • 8.5.1 Critiques and justifications of the concept of relevance 166
   – 8.6 A broader perspective: System quality and user utility 168
        • 8.6.1 System issues 168
        • 8.6.2 User utility 169
        • 8.6.3 Refining a deployed system 170
   – 8.7 Results snippets 170
   – 8.8 References and further reading 173
IIR 08 KEYWORDS
• relevance, gold standard=ground truth,information need,
       development test collections,       TREC, precision,
       recall, accuracy,     F measure, precision-recall
  Curve,       interpolated precision,     eleven-point
  interpolated average precision, mean average
  precision(MAP), precision at k, R-precision, break-
  eleven point, ROC curve, sensitively, specificity,
       cumulative gain,      normalized discounted
  cumulative gain(NDCG), pooling,          kappa statistic,
       marginal,      marginal relevance, A/B testing, click
  rough log analysis=clickstream mining, snipet, static,
       summary<->dynamic summary,          text summarization,
       keyword-in-context(KWIC),
Evaluating search engines
明確な測定指標
• How fast does it index
  – Number of documents/hour
  – (Average document size)
• How fast does it search
  – Latency as a function of index size
• Expressiveness of query language
  – Ability to express complex information needs
  – Speed on complex queries
• Uncluttered UI
• Is it free?
                                          評価法としては簡単

                                                      7
明確でない測定指標
•   ユーザ満足度(user happiness)の定量的解析が必要
    – ユーザ満足度とは?
    – 応答スピードやインデックスサイズも要因
    – しかし、不要なanswersはユーザをハッピーにはできないことは明白

•   我々がハッピーにしたいユーザとは誰なのか?
    – Depends on the setting
•   Web engine: ユーザが欲しいものをクリックなどのフィードバックで取得
•   eCommerce site: ユーザが欲しいものを購入
    – 満足度を測るのはエンドユーザか、eコマースサイトか?
    – 購入までの時間、購入した人の特徴
•   Enterprise (company/govt/academic): ユーザの生産性が大事
    – 時間のsave 情報を探すための時間
    – 情報の幅広さ(検索対象が幅広い、検索結果が固定ではない)、安全なアクセスなど




                                               どう評価したら
                                              良いのかが難しい
                                                         8
Happiness: elusive to measure
• Most common proxy: relevance of search
  results
  – But how do you measure relevance?
• We will detail a methodology here, then
  examine its issues
• Relevant measurement requires 3 elements:
  1. A benchmark document collection
  2. A benchmark suite of queries
  3. A usually binary assessment of either Relevant or
     Nonrelevant for each query and each document
     •   Some work on more-than-binary, but not the standard
                                                               9
Evaluating an IR system
• Note: the information need is translated into a query
• Relevance is assessed relative to the information need
  not the query
   – E.g.,
      • Information need: I'm looking for information on whether drinking
        red wine is more effective at reducing your risk of heart attacks
        than white wine.
      • Query: wine red white heart attack effective

                    query⊂information need


• ∴ 人力による適合性判定データが必要

                                                                        10
標準的なテストコレクション

Cranfield       パイオニア。現在では小さすぎる
TREC            NIST による Text Retrieval Conference で使われた
                もの。450 の情報ニーズ、189万文書
GOV2            NIST による。現在研究目的に利用できる最大の
                Web コレクション。2,500万ページ
NTCIR           Asia版のTREC. 東アジア言語 / クロス言語にフォー
                カス。 TREC と同規模。(marginal評価データあり)
CLEF            ヨーロッパ言語と言語横断情報検索に集中
Reuters         Reuter-21578, Reuter-RCV1。テキスト分類のため
                に最もよく使われてきた。RCV1 は 806,791文書
20 Newsgroups   Usenet の 20 グループの記事。テキスト分類で広く
                利用される。18,941 記事。

※ 最近は Wikipedia のアーカイブも良く利用されるとか。 他にMovieLensやNetflixなど
検索結果の評価
IIR-08 サマリ
•   ランク付けなしの検索結果の評価
    – positive / negative, true / false
    – Precision と Recall
    – P と R のトレードオフ指標 → F値

•   ランク付けされた検索結果の評価
    – Presicion - Recall 曲線
         • 補完適合率
         • 曲線を調べる統計手法 ... 11 point interpolated average precision
    – → より良い統計指標に MAP
    – MAP では判断しづらい物 (Web検索 etc) → Precision-top K → R-Precision
    – ほか
         • ROC曲線
         • NDCG

•   情報ニーズに対する適合性の評価
    – kappa statistic
ランク付けなしの
 検索結果の評価

(ランク付けなしとは
 絶対的な0/1推定)
positive/negative -> true/false
• 推定内容
  陽性: positive (p)
  陰性: negative (n)
• 推定内容の正確さ
  正解: true (t)
  不正解: false (f)


           relevant        retrieved


                      tp
             fn               fp


                      tn
Precision and Recall
                relevant        retrieved


                           tp
                  fn               fp


                           tn                         欠点:
                                                 全ドキュメント
   Precision                       Recall        をretrievedとすれ
                                                 ば1にできてし
 = tp/(tp+fp)                      =tp/(tp+fn)         まう

(= tp/p)                            検索もれの少なさ
  ゴミの少なさ
                                                      Ex.8.1
          PecisionとRecallはtrade-off
Accuracy and Jaccard Index
             relevant        retrieved


                        tp
               fn               fp


                        tn

   Accuracy
                                  non-relevantの割合が99.9%だと全て
 =(tp+tn)/(tp+fp+fn+tn)           をnegativeと推定すればAccuracyが高
                                            くなってしまう
(=t/(t+f))
  Jaccard index
                                     例: 試験者の中で0.1%が癌でも
=tp/(tp+fp+fn) それぞれの                 みんな癌でないと判定すれば
                                          99.9%の正解率
                利点・欠点
全ドキュメントを
              F-measure    retrievedとすれば
                            0.5にできてしま
                                   う

• P と R の加重調和平均(加重平均だと良くな
  い)



•   β=1(α=0.5)の時のFを代表的なF-measureで
    あるF1と呼ぶ


                              Ex.8.2, Ex.8.3
                                  Ex.8.7
F1 and other averages

                     Combined Measures

100

 80                                                Minimum
                                                   Maximum
 60
                                                   Arithmetic
                                                   Geometric
 40
                                                   Harmonic
 20

  0
      0     20      40       60      80      100
           Precision (Recall fixed at 70%)

                                                                19
ランク付けありの
 検索結果の評価

(ランク付けありとは
 相対的なオーダー)
ランクありの検索結果

• Precision, Recall, F値は集合ベースの方法 →
  ランクありでは拡張する必要あり

• 検索された文書の集合 = top K の検索結果
A precision-recall curve と
      Interpolated Precision
            1.0

                                 Interpolated Precision (Pinterp)
            0.8
Precision




            0.6

            0.4
                             Trueなら右上、
            0.2         Falseなら下に向かってい
                                  る
            0.0
                  0.0      0.2     0.4        0.6         0.8       1.0
                                      Recall
                                                                      Ex.8.4
                                                                               22
Evaluation
• Graphs are good, but people want summary measures!
   – Precision at fixed retrieval level
       • Precision-at-k: Precision of top k results
       • Perhaps appropriate for most of web search: all people
         want are good matches on the first one or two results
         pages
       • But: averages badly and has an arbitrary parameter of k
   – 11-point interpolated average precision
       • The standard measure in the early TREC competitions: you
         take the precision at 11 levels of recall varying from 0 to 1
         by tenths of the documents, using interpolation (the value
         for 0 is always interpolated!), and average them
       • Evaluates performance at all recall levels
                                                                     23
11point interpolated average precision
                    Recall=0の点は暴れや
                            すい



                              単調減少かそれに
                               近い方が良い




※ グラフを見て妙な特異点がないかなどを調査する

                                     Ex.8.5, Ex.8.6
MAP
        Mean Average Precision




• Q 情報ニーズの集合
• mj 情報ニーズjの適合文書の数
• Rjk 情報ニーズjのtopから文書kまでのretrieved
  集合
• MAPの特徴
  • Interpolatedではない
  • Recallではなく,適合文書ごとの値の和        Recall軸が基準
  • 複数の情報ニーズにおける平均値
Precision at K / R-Precision
                                                                Ex.8.8,EX.8.9
                        (1点で)評価
• MAPのように全retrievedを見る必要があるの?
• Web 検索では top 10 から 30 の precision が重要
     – 平均ではなく適切な1つでいいのでは?→ precision at K, R-
       Precision
• Precision at K                                              ユーザの労力
                                                                が基準
     – 上位K個のretrieved集合のPrecision

• でもKって何が適切な数なの?情報セットごとに違うんじゃない
  の?
•   K= |Rel| (Rel: set of relevant document)としたPrecision at KがR-Precision (K
    はRecallを1にできる可能性のある最小値)
     • 答えは5つある、これはと思う5つを選んでみよ、という感じ
                                                                 Recall軸が基準
     • この値においてPrecision = Recallとなる
•   R-Precisionは1点での評価だがMAPとかなり相関がある
                                                         |Rel|が分からない場
    ご参考: TRECなどではMAPとR-precision(Non-
                                                            合はできない
        Interpolated)が使われている
その他の指標
ROC曲線
 • Precision / Recall曲線は全体に対するrelevant documentの割合で
   形が多く違う(違う情報ニーズ間の比較はできない)
 • 縦軸を recall、横軸を false-positive 率 ( fp / (fp + tn) ) ... quot;見えたゴ
   ミ率quot;
 • ゴミが見えるのをどの程度許容できたら recall が上がるか
 • Top kを見るには不適、全体を見るには適する
  Retrievedした
relevant document
      の割合

                                                     このグラフ上で
                                                     precisionはどの
                                                     ように評点され
                                                           るか
    Retrievedした
Non-relevant document
        の割合
NDCG
    (Normalized Discounted Cumulative Gain)




 • quot;marginalquot; な適合性判断を加味した指標
 • 機械学習による適合性判断をした場合などに使われ
   る
 • パラメータ設定が大事                    ユーザの労力
                       Logの底はどのよ
                                   が基準
                              うに設定するか
   – kとlogの底
私はこの重み付けを考えをROC Curveに適用し、
  MovieLensによって評価したことがある

NDCGといっても一意の方   ご参考: MSN Search EngineはNDCGの一種を使っている
     式ではない                    と言われている
情報ニーズに対する
 適合性の評価
適合性の評価

• そもそも適合とは
• 主観的な判断
• さらにユーザは同じ状況でも全く同じ選
  択をするとは限らない(ゆらぐ)
• そのテストデータが真に適合かどうか →
  統計指標でその品質を算出
Kappa measure for inter-judge
           (dis)agreement

• Kappa measure
    – 判断の一致率
    – カテゴリの判断のために設計された
    – “偶然の一致” を補正する統計指標
• Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
    – P(A) – proportion of time judges agree
    – P(E) – what agreement would be by chance
• Kappa = 0 偶然の一致
• Kappa = 1 完全に一致

                                                 32
Kappa Measure: Example (from lecture08...ppt)

Number of         Judge 1               Judge 2
docs
300               Relevant              Relevant

70                Nonrelevant           Nonrelevant


20                Relevant              Nonrelevant

10                Nonrelevant           relevant
Kappa Example

•   P(A) = 370/400 = 0.925
•   P(nonrelevant) = (10+20+70+70)/800 = 0.2125
•   P(relevant) = (10+20+300+300)/800 = 0.7875
•   P(E) = 0.2125^2 + 0.7875^2 = 0.665
•   Kappa = (0.925 – 0.665)/(1-0.665) = 0.776

•   Kappa > 0.8 = good agreement
•   0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96)
•   Depends on purpose of study
•   For >2 judges: average pairwise kappas                 Ex.8.10
                                                                 34
8章 その他の話題 (読み物的)

• 検索結果のフォーマルな指標以外に、ユーザーが快
  適度を判断する軸
   – 検索スピード、ユーザビリティ、etc
   – 二値判断でなく quot;marginalquot; な判断をどう加味するか


• 定量的な評価 vs 人間の主観による評価
   – A/B testing
      • ユーザ分け


• Snnipets
   – 静的 / 動的
Can we avoid human judgment?
• No
• Makes experimental work hard
   – Especially on a large scale
• In some very specific settings, can use proxies
   – E.g.: for approximate vector space retrieval, we can
     compare the cosine distance closeness of the closest
     docs to those found by an approximate retrieval
     algorithm
• But once we have test collections, we can reuse
  them (so long as we don’t overtrain too badly)

                                                            36
Fine.
• See also
  – 酒井哲也(東芝),”よりよい検索システム実
    現のために:正解の良し悪しを考慮した情報
    検索評価動向”,IPSJ Magazine,Vol.47, No.2,
    Feb.,2006
     • http://voice.fresheye.com/sakai/IPSJ-MGN470211.pdf




                                                            37

Contenu connexe

Tendances

Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Yusuke Kawasaki
 
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...QNB Group
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会Yusuke Ando
 
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...QNB Group
 
DS-027-長度量測
DS-027-長度量測DS-027-長度量測
DS-027-長度量測handbook
 
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...QNB Group
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4huquanwei
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441Azerbaijan Laws
 
20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説mochiko AsTech
 
090608-TogoWS REST
090608-TogoWS REST090608-TogoWS REST
090608-TogoWS RESTocha_kaneko
 
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...QNB Group
 
Exploratory testing survey in 2020
Exploratory testing survey in 2020Exploratory testing survey in 2020
Exploratory testing survey in 2020Jen-Chieh Ko
 
Egxeiridio Drastiriotiton Modellus
Egxeiridio Drastiriotiton ModellusEgxeiridio Drastiriotiton Modellus
Egxeiridio Drastiriotiton ModellusStergios
 
Itpub电子杂志(第二期)
Itpub电子杂志(第二期)Itpub电子杂志(第二期)
Itpub电子杂志(第二期)yiditushe
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422Azerbaijan Laws
 
俄罗斯Gost标准,进出口购买商品目录№RG 2279
俄罗斯Gost标准,进出口购买商品目录№RG 2279俄罗斯Gost标准,进出口购买商品目录№RG 2279
俄罗斯Gost标准,进出口购买商品目录№RG 2279Turkmenistan Laws
 
AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018yoshihiro todoroki
 
Oracle
OracleOracle
Oraclensah
 

Tendances (20)

Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
 
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 10, 2021 التحليل الفني اليومي لب...
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会
 
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 18, 2021 التحليل الفني اليومي لب...
 
Arrhythmia news no.40
Arrhythmia news no.40Arrhythmia news no.40
Arrhythmia news no.40
 
DS-027-長度量測
DS-027-長度量測DS-027-長度量測
DS-027-長度量測
 
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 19, 2021 التحليل الفني اليومي لب...
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3441
 
20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説
 
090608-TogoWS REST
090608-TogoWS REST090608-TogoWS REST
090608-TogoWS REST
 
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...
QNBFS Daily Technical Trader Qatar - January 07, 2021 التحليل الفني اليومي لب...
 
Postgre Sql 8 4
Postgre Sql 8 4Postgre Sql 8 4
Postgre Sql 8 4
 
Exploratory testing survey in 2020
Exploratory testing survey in 2020Exploratory testing survey in 2020
Exploratory testing survey in 2020
 
Egxeiridio Drastiriotiton Modellus
Egxeiridio Drastiriotiton ModellusEgxeiridio Drastiriotiton Modellus
Egxeiridio Drastiriotiton Modellus
 
Itpub电子杂志(第二期)
Itpub电子杂志(第二期)Itpub电子杂志(第二期)
Itpub电子杂志(第二期)
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3422
 
俄罗斯Gost标准,进出口购买商品目录№RG 2279
俄罗斯Gost标准,进出口购买商品目录№RG 2279俄罗斯Gost标准,进出口购买商品目录№RG 2279
俄罗斯Gost标准,进出口购买商品目录№RG 2279
 
AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018
 
Oracle
OracleOracle
Oracle
 

Similaire à Iir 08 ver.1.0

Search Engines Chapter 1 Summary
Search Engines Chapter 1 SummarySearch Engines Chapter 1 Summary
Search Engines Chapter 1 Summarysleepy_yoshi
 
IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境handbook
 
Development toolsforteamdevelopment
Development toolsforteamdevelopmentDevelopment toolsforteamdevelopment
Development toolsforteamdevelopmentTakao Tetsuro
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009reportToru Mori
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討handbook
 
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟taiwanweb20
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」devsumi2009
 
PMT-006-生產計劃與管理
PMT-006-生產計劃與管理PMT-006-生產計劃與管理
PMT-006-生產計劃與管理handbook
 
企业级搜索引擎Solr交流
企业级搜索引擎Solr交流企业级搜索引擎Solr交流
企业级搜索引擎Solr交流chuan liang
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 CandycaneYusuke Ando
 
Tcl/Tk+ハッシュリスト
Tcl/Tk+ハッシュリストTcl/Tk+ハッシュリスト
Tcl/Tk+ハッシュリストHiromu Shioya
 
標竿學習的價值
標竿學習的價值標竿學習的價值
標竿學習的價值HelloDaniel
 
Shibuya.abc - Gnashで遊ぼう
Shibuya.abc - Gnashで遊ぼうShibuya.abc - Gnashで遊ぼう
Shibuya.abc - Gnashで遊ぼうgyuque
 
Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceNobuya Sato
 
20090313 Cakephpstudy
20090313 Cakephpstudy20090313 Cakephpstudy
20090313 CakephpstudyYusuke Ando
 
清华大学精品课程 量子力学
清华大学精品课程 量子力学清华大学精品课程 量子力学
清华大学精品课程 量子力学littlesujin
 
Fy09 Q3行動咖啡館 微軟虛擬化解決方案
Fy09 Q3行動咖啡館 微軟虛擬化解決方案Fy09 Q3行動咖啡館 微軟虛擬化解決方案
Fy09 Q3行動咖啡館 微軟虛擬化解決方案Ada Lin
 
DS-038-四十項產品創新重要指導原則Ok
DS-038-四十項產品創新重要指導原則OkDS-038-四十項產品創新重要指導原則Ok
DS-038-四十項產品創新重要指導原則Okhandbook
 

Similaire à Iir 08 ver.1.0 (20)

Search Engines Chapter 1 Summary
Search Engines Chapter 1 SummarySearch Engines Chapter 1 Summary
Search Engines Chapter 1 Summary
 
IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境
 
sigfpai73-kaji
sigfpai73-kajisigfpai73-kaji
sigfpai73-kaji
 
Development toolsforteamdevelopment
Development toolsforteamdevelopmentDevelopment toolsforteamdevelopment
Development toolsforteamdevelopment
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009report
 
Reloaded
ReloadedReloaded
Reloaded
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討
 
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟
創業家研習營-7分鐘創意簡報技巧,Mr.6劉威麟
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
 
PMT-006-生產計劃與管理
PMT-006-生產計劃與管理PMT-006-生產計劃與管理
PMT-006-生產計劃與管理
 
企业级搜索引擎Solr交流
企业级搜索引擎Solr交流企业级搜索引擎Solr交流
企业级搜索引擎Solr交流
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 Candycane
 
Tcl/Tk+ハッシュリスト
Tcl/Tk+ハッシュリストTcl/Tk+ハッシュリスト
Tcl/Tk+ハッシュリスト
 
標竿學習的價值
標竿學習的價值標竿學習的價值
標竿學習的價值
 
Shibuya.abc - Gnashで遊ぼう
Shibuya.abc - Gnashで遊ぼうShibuya.abc - Gnashで遊ぼう
Shibuya.abc - Gnashで遊ぼう
 
Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User Experience
 
20090313 Cakephpstudy
20090313 Cakephpstudy20090313 Cakephpstudy
20090313 Cakephpstudy
 
清华大学精品课程 量子力学
清华大学精品课程 量子力学清华大学精品课程 量子力学
清华大学精品课程 量子力学
 
Fy09 Q3行動咖啡館 微軟虛擬化解決方案
Fy09 Q3行動咖啡館 微軟虛擬化解決方案Fy09 Q3行動咖啡館 微軟虛擬化解決方案
Fy09 Q3行動咖啡館 微軟虛擬化解決方案
 
DS-038-四十項產品創新重要指導原則Ok
DS-038-四十項產品創新重要指導原則OkDS-038-四十項產品創新重要指導原則Ok
DS-038-四十項產品創新重要指導原則Ok
 

Dernier

"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr BaganFwdays
 
Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 365Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 3652toLead Limited
 
How to write a Business Continuity Plan
How to write a Business Continuity PlanHow to write a Business Continuity Plan
How to write a Business Continuity PlanDatabarracks
 
Advanced Computer Architecture – An Introduction
Advanced Computer Architecture – An IntroductionAdvanced Computer Architecture – An Introduction
Advanced Computer Architecture – An IntroductionDilum Bandara
 
Training state-of-the-art general text embedding
Training state-of-the-art general text embeddingTraining state-of-the-art general text embedding
Training state-of-the-art general text embeddingZilliz
 
The Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsThe Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsPixlogix Infotech
 
What is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdfWhat is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdfMounikaPolabathina
 
WordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your BrandWordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your Brandgvaughan
 
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxLoriGlavin3
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe
 
TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024Lonnie McRorey
 
unit 4 immunoblotting technique complete.pptx
unit 4 immunoblotting technique complete.pptxunit 4 immunoblotting technique complete.pptx
unit 4 immunoblotting technique complete.pptxBkGupta21
 
SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024Lorenzo Miniero
 
Anypoint Exchange: It’s Not Just a Repo!
Anypoint Exchange: It’s Not Just a Repo!Anypoint Exchange: It’s Not Just a Repo!
Anypoint Exchange: It’s Not Just a Repo!Manik S Magar
 
Moving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfMoving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfLoriGlavin3
 
Generative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information DevelopersGenerative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information DevelopersRaghuram Pandurangan
 
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptxThe Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptxLoriGlavin3
 
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptx
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptxPasskey Providers and Enabling Portability: FIDO Paris Seminar.pptx
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptxLoriGlavin3
 
Dev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio WebDev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio WebUiPathCommunity
 

Dernier (20)

"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan
 
Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 365Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 365
 
How to write a Business Continuity Plan
How to write a Business Continuity PlanHow to write a Business Continuity Plan
How to write a Business Continuity Plan
 
Advanced Computer Architecture – An Introduction
Advanced Computer Architecture – An IntroductionAdvanced Computer Architecture – An Introduction
Advanced Computer Architecture – An Introduction
 
Training state-of-the-art general text embedding
Training state-of-the-art general text embeddingTraining state-of-the-art general text embedding
Training state-of-the-art general text embedding
 
The Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsThe Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and Cons
 
What is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdfWhat is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdf
 
WordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your BrandWordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your Brand
 
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.
 
TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024TeamStation AI System Report LATAM IT Salaries 2024
TeamStation AI System Report LATAM IT Salaries 2024
 
unit 4 immunoblotting technique complete.pptx
unit 4 immunoblotting technique complete.pptxunit 4 immunoblotting technique complete.pptx
unit 4 immunoblotting technique complete.pptx
 
SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024
 
Anypoint Exchange: It’s Not Just a Repo!
Anypoint Exchange: It’s Not Just a Repo!Anypoint Exchange: It’s Not Just a Repo!
Anypoint Exchange: It’s Not Just a Repo!
 
Moving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdfMoving Beyond Passwords: FIDO Paris Seminar.pdf
Moving Beyond Passwords: FIDO Paris Seminar.pdf
 
Generative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information DevelopersGenerative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information Developers
 
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptxThe Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
 
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptx
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptxPasskey Providers and Enabling Portability: FIDO Paris Seminar.pptx
Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptx
 
Dev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio WebDev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio Web
 

Iir 08 ver.1.0

  • 1. Introduction to Information Retrieval Chapter 8: Evaluation in IR
  • 2. 引用元(参照先) • IIRのサイト – http://www-csli.stanford.edu/~hinrich/information-retrieval- book.html • 本と同等の内容を公開 • Stanford CS276でのSlideを公開 • はてなおやさんの説明スライド – http://bloghackers.net/~naoya/iir/ppt/ • Y!J Labs たつをさんによる補足情報 – http://chalow.net/clsearch.cgi?cat=IIR • 基本的にこれらの資料を切り貼り、さらに私の知識と分析を 追加して資料を作成しました
  • 3. IIR重要部分 • 情報推薦にとっては – 6、7、9、18、19章あたりが重要と考え ます • 6章 scoring(理論より) • 7章 scoring(実装より) • 8章 評価手法 • 9章 relevance feedback • 18章 Scaleする実装 – Matrix decompositions, LSI, 特異値分解など • 19章 PageRank, HITSなど
  • 4. IIR 08: Table of contents • 8 Evaluation in information retrieval 151 – 8.1 Information retrieval system evaluation 152 – 8.2 Standard test collections 153 – 8.3 Evaluation of unranked retrieval sets 154 – 8.4 Evaluation of ranked retrieval results 158 – 8.5 Assessing relevance 164 • 8.5.1 Critiques and justifications of the concept of relevance 166 – 8.6 A broader perspective: System quality and user utility 168 • 8.6.1 System issues 168 • 8.6.2 User utility 169 • 8.6.3 Refining a deployed system 170 – 8.7 Results snippets 170 – 8.8 References and further reading 173
  • 5. IIR 08 KEYWORDS • relevance, gold standard=ground truth,information need, development test collections, TREC, precision, recall, accuracy, F measure, precision-recall Curve, interpolated precision, eleven-point interpolated average precision, mean average precision(MAP), precision at k, R-precision, break- eleven point, ROC curve, sensitively, specificity, cumulative gain, normalized discounted cumulative gain(NDCG), pooling, kappa statistic, marginal, marginal relevance, A/B testing, click rough log analysis=clickstream mining, snipet, static, summary<->dynamic summary, text summarization, keyword-in-context(KWIC),
  • 7. 明確な測定指標 • How fast does it index – Number of documents/hour – (Average document size) • How fast does it search – Latency as a function of index size • Expressiveness of query language – Ability to express complex information needs – Speed on complex queries • Uncluttered UI • Is it free? 評価法としては簡単 7
  • 8. 明確でない測定指標 • ユーザ満足度(user happiness)の定量的解析が必要 – ユーザ満足度とは? – 応答スピードやインデックスサイズも要因 – しかし、不要なanswersはユーザをハッピーにはできないことは明白 • 我々がハッピーにしたいユーザとは誰なのか? – Depends on the setting • Web engine: ユーザが欲しいものをクリックなどのフィードバックで取得 • eCommerce site: ユーザが欲しいものを購入 – 満足度を測るのはエンドユーザか、eコマースサイトか? – 購入までの時間、購入した人の特徴 • Enterprise (company/govt/academic): ユーザの生産性が大事 – 時間のsave 情報を探すための時間 – 情報の幅広さ(検索対象が幅広い、検索結果が固定ではない)、安全なアクセスなど どう評価したら 良いのかが難しい 8
  • 9. Happiness: elusive to measure • Most common proxy: relevance of search results – But how do you measure relevance? • We will detail a methodology here, then examine its issues • Relevant measurement requires 3 elements: 1. A benchmark document collection 2. A benchmark suite of queries 3. A usually binary assessment of either Relevant or Nonrelevant for each query and each document • Some work on more-than-binary, but not the standard 9
  • 10. Evaluating an IR system • Note: the information need is translated into a query • Relevance is assessed relative to the information need not the query – E.g., • Information need: I'm looking for information on whether drinking red wine is more effective at reducing your risk of heart attacks than white wine. • Query: wine red white heart attack effective query⊂information need • ∴ 人力による適合性判定データが必要 10
  • 11. 標準的なテストコレクション Cranfield パイオニア。現在では小さすぎる TREC NIST による Text Retrieval Conference で使われた もの。450 の情報ニーズ、189万文書 GOV2 NIST による。現在研究目的に利用できる最大の Web コレクション。2,500万ページ NTCIR Asia版のTREC. 東アジア言語 / クロス言語にフォー カス。 TREC と同規模。(marginal評価データあり) CLEF ヨーロッパ言語と言語横断情報検索に集中 Reuters Reuter-21578, Reuter-RCV1。テキスト分類のため に最もよく使われてきた。RCV1 は 806,791文書 20 Newsgroups Usenet の 20 グループの記事。テキスト分類で広く 利用される。18,941 記事。 ※ 最近は Wikipedia のアーカイブも良く利用されるとか。 他にMovieLensやNetflixなど
  • 13. IIR-08 サマリ • ランク付けなしの検索結果の評価 – positive / negative, true / false – Precision と Recall – P と R のトレードオフ指標 → F値 • ランク付けされた検索結果の評価 – Presicion - Recall 曲線 • 補完適合率 • 曲線を調べる統計手法 ... 11 point interpolated average precision – → より良い統計指標に MAP – MAP では判断しづらい物 (Web検索 etc) → Precision-top K → R-Precision – ほか • ROC曲線 • NDCG • 情報ニーズに対する適合性の評価 – kappa statistic
  • 15. positive/negative -> true/false • 推定内容 陽性: positive (p) 陰性: negative (n) • 推定内容の正確さ 正解: true (t) 不正解: false (f) relevant retrieved tp fn fp tn
  • 16. Precision and Recall relevant retrieved tp fn fp tn 欠点: 全ドキュメント Precision Recall をretrievedとすれ ば1にできてし = tp/(tp+fp) =tp/(tp+fn) まう (= tp/p) 検索もれの少なさ ゴミの少なさ Ex.8.1 PecisionとRecallはtrade-off
  • 17. Accuracy and Jaccard Index relevant retrieved tp fn fp tn Accuracy non-relevantの割合が99.9%だと全て =(tp+tn)/(tp+fp+fn+tn) をnegativeと推定すればAccuracyが高 くなってしまう (=t/(t+f)) Jaccard index 例: 試験者の中で0.1%が癌でも =tp/(tp+fp+fn) それぞれの みんな癌でないと判定すれば 99.9%の正解率 利点・欠点
  • 18. 全ドキュメントを F-measure retrievedとすれば 0.5にできてしま う • P と R の加重調和平均(加重平均だと良くな い) • β=1(α=0.5)の時のFを代表的なF-measureで あるF1と呼ぶ Ex.8.2, Ex.8.3 Ex.8.7
  • 19. F1 and other averages Combined Measures 100 80 Minimum Maximum 60 Arithmetic Geometric 40 Harmonic 20 0 0 20 40 60 80 100 Precision (Recall fixed at 70%) 19
  • 21. ランクありの検索結果 • Precision, Recall, F値は集合ベースの方法 → ランクありでは拡張する必要あり • 検索された文書の集合 = top K の検索結果
  • 22. A precision-recall curve と Interpolated Precision 1.0 Interpolated Precision (Pinterp) 0.8 Precision 0.6 0.4 Trueなら右上、 0.2 Falseなら下に向かってい る 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall Ex.8.4 22
  • 23. Evaluation • Graphs are good, but people want summary measures! – Precision at fixed retrieval level • Precision-at-k: Precision of top k results • Perhaps appropriate for most of web search: all people want are good matches on the first one or two results pages • But: averages badly and has an arbitrary parameter of k – 11-point interpolated average precision • The standard measure in the early TREC competitions: you take the precision at 11 levels of recall varying from 0 to 1 by tenths of the documents, using interpolation (the value for 0 is always interpolated!), and average them • Evaluates performance at all recall levels 23
  • 24. 11point interpolated average precision Recall=0の点は暴れや すい 単調減少かそれに 近い方が良い ※ グラフを見て妙な特異点がないかなどを調査する Ex.8.5, Ex.8.6
  • 25. MAP Mean Average Precision • Q 情報ニーズの集合 • mj 情報ニーズjの適合文書の数 • Rjk 情報ニーズjのtopから文書kまでのretrieved 集合 • MAPの特徴 • Interpolatedではない • Recallではなく,適合文書ごとの値の和 Recall軸が基準 • 複数の情報ニーズにおける平均値
  • 26. Precision at K / R-Precision Ex.8.8,EX.8.9 (1点で)評価 • MAPのように全retrievedを見る必要があるの? • Web 検索では top 10 から 30 の precision が重要 – 平均ではなく適切な1つでいいのでは?→ precision at K, R- Precision • Precision at K ユーザの労力 が基準 – 上位K個のretrieved集合のPrecision • でもKって何が適切な数なの?情報セットごとに違うんじゃない の? • K= |Rel| (Rel: set of relevant document)としたPrecision at KがR-Precision (K はRecallを1にできる可能性のある最小値) • 答えは5つある、これはと思う5つを選んでみよ、という感じ Recall軸が基準 • この値においてPrecision = Recallとなる • R-Precisionは1点での評価だがMAPとかなり相関がある |Rel|が分からない場 ご参考: TRECなどではMAPとR-precision(Non- 合はできない Interpolated)が使われている
  • 28. ROC曲線 • Precision / Recall曲線は全体に対するrelevant documentの割合で 形が多く違う(違う情報ニーズ間の比較はできない) • 縦軸を recall、横軸を false-positive 率 ( fp / (fp + tn) ) ... quot;見えたゴ ミ率quot; • ゴミが見えるのをどの程度許容できたら recall が上がるか • Top kを見るには不適、全体を見るには適する Retrievedした relevant document の割合 このグラフ上で precisionはどの ように評点され るか Retrievedした Non-relevant document の割合
  • 29. NDCG (Normalized Discounted Cumulative Gain) • quot;marginalquot; な適合性判断を加味した指標 • 機械学習による適合性判断をした場合などに使われ る • パラメータ設定が大事 ユーザの労力 Logの底はどのよ が基準 うに設定するか – kとlogの底 私はこの重み付けを考えをROC Curveに適用し、 MovieLensによって評価したことがある NDCGといっても一意の方 ご参考: MSN Search EngineはNDCGの一種を使っている 式ではない と言われている
  • 31. 適合性の評価 • そもそも適合とは • 主観的な判断 • さらにユーザは同じ状況でも全く同じ選 択をするとは限らない(ゆらぐ) • そのテストデータが真に適合かどうか → 統計指標でその品質を算出
  • 32. Kappa measure for inter-judge (dis)agreement • Kappa measure – 判断の一致率 – カテゴリの判断のために設計された – “偶然の一致” を補正する統計指標 • Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] – P(A) – proportion of time judges agree – P(E) – what agreement would be by chance • Kappa = 0 偶然の一致 • Kappa = 1 完全に一致 32
  • 33. Kappa Measure: Example (from lecture08...ppt) Number of Judge 1 Judge 2 docs 300 Relevant Relevant 70 Nonrelevant Nonrelevant 20 Relevant Nonrelevant 10 Nonrelevant relevant
  • 34. Kappa Example • P(A) = 370/400 = 0.925 • P(nonrelevant) = (10+20+70+70)/800 = 0.2125 • P(relevant) = (10+20+300+300)/800 = 0.7875 • P(E) = 0.2125^2 + 0.7875^2 = 0.665 • Kappa = (0.925 – 0.665)/(1-0.665) = 0.776 • Kappa > 0.8 = good agreement • 0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96) • Depends on purpose of study • For >2 judges: average pairwise kappas Ex.8.10 34
  • 35. 8章 その他の話題 (読み物的) • 検索結果のフォーマルな指標以外に、ユーザーが快 適度を判断する軸 – 検索スピード、ユーザビリティ、etc – 二値判断でなく quot;marginalquot; な判断をどう加味するか • 定量的な評価 vs 人間の主観による評価 – A/B testing • ユーザ分け • Snnipets – 静的 / 動的
  • 36. Can we avoid human judgment? • No • Makes experimental work hard – Especially on a large scale • In some very specific settings, can use proxies – E.g.: for approximate vector space retrieval, we can compare the cosine distance closeness of the closest docs to those found by an approximate retrieval algorithm • But once we have test collections, we can reuse them (so long as we don’t overtrain too badly) 36
  • 37. Fine. • See also – 酒井哲也(東芝),”よりよい検索システム実 現のために:正解の良し悪しを考慮した情報 検索評価動向”,IPSJ Magazine,Vol.47, No.2, Feb.,2006 • http://voice.fresheye.com/sakai/IPSJ-MGN470211.pdf 37