SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
第3章  ベイズの識識別規則  後半
第3回『はじめてのパターン認識識』読書会 #はじパタ
16th July, 2013 @millionsmile
3.2 受信者動作特性曲線
要はROC曲線とAUCの話です。
ROC曲線のはじまり
受信動作特性曲線(ROC曲線; receiver operator characteristics
curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出
するための⽅方法として開発された。
出典: Wikipedia
http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF
%A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7
そのため「受信者動作特性」というレーダーっぽい感じの名前がついて
いるようだが、この計算⽅方法は、分類アルゴリズムの性能評価法として、
医療療分野でよく使われている。ミスがあってはならぬ世界ですからね。
ROC曲線の⾔言葉葉の定義
2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と
なる。
属していると判断  →  p(陽性;positive)
属していないと判断  →  n(陰性;negative)
正しく分類されている  →  真(True)
間違って分類されている  →  偽(False)
ROC曲線で性能評価値を計算
ROC曲線の求め⽅方
偽陽性  →  偽のものを真と判断した割合
真陽性  →  真のものを正しく真と判断した割合
正確度度  →  真と偽を正しく識識別した割合
適合率率率  →  検索索された⽂文書中の適合⽂文書の割合
            例例)検索索エンジンで100件表⽰示されたとき、100件のうち、
            検索索者が必要とするページ数の割合
再現率率率  →  適合している全⽂文書からどれだけ検索索できているか(網羅羅性)
            例例)検索索エンジンで100件表⽰示されたとき、検索索者が必要とする
            全ページのうち何件が100件に含まれているかという割合
            ただし、検索索者が必要とする全ページ数はわからないので、
            真陽性率率率をつかって推定を⾏行行う。真陽性率率率だと正しいものの
            数が正確にわかっているため。
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
Answer
検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ
げるために誤りを減らそうとすると、必要なページまで検索索対象からはずすこ
とになるので、80件検索索されて75件正しいというようなことになり、結果と
して再現率率率が下がる。
ROC曲線の求め⽅方
ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ
にしたもの(右図)
[よいところ]
偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の
クラス内で計算するため、クラスのデータ数に⼤大
きな差があってもROC曲線には影響うけない。
[活⽤用例例]
医療療では、病気のクラスは健康なクラスに⽐比べて
データ数が極端に少ないが、それでも安定した性
能評価が期待できる。
ROC曲線の求め⽅方
陽性と陰性のクラス分布(右図)
p(x|p*)が陽性のクラスの尤度度
p(x|n*)が陰性のクラスの尤度度
識識別境界がBとき、R1の領領域が陽性、R2が陰性
陽性クラスのうち、ε1が陰性と判断(偽陰性)
ε2が陽性と判断(偽陽性)されたもの。
ε1を第1種の誤り(miss)、
ε2が第2種の誤り(false alarm)
陽性クラスのうち、陽性と判断される割合は、
1-ε1となる
ROC曲線による性能評価(AUC)
ROC曲線は、クラス間の重なりが少ないほど左
上にシフトする。
ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC;
area under ROC curve)といい、識識別器の性能
をあらわす評価尺度度として使われる。
※テキストでは”AUR”となっていますが、問い合わせたとこ
ろ、”AUC”が正しいとのことです。そのうち正誤表に反映されるらしい
です。
AUCは1.0〜~0.5の間をとり、1.0に近いほど性能
がよいと判断できる。1.0(左上の位置)だと完全
な識識別器であり、0.5(右上から左下への線)だと
ランダムな識識別器となる。
AUC
ROC曲線による性能評価(AUC)
ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる
点である。
ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。
しきい値をいくつか設定していくことで、ROC曲線が描かれる。
ROC曲線による性能評価(AUC)
奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。
抜粋
例例えば11で切切って,11以上を陽性(positive),11未満を陰性
(negative)とした場合,10個のTのうち5個がpositiveに⼊入り
ますので,true positive(真陽性)の割合は0.5です。また,5
個のFのうち1個がpositiveに⼊入りますので,false positive(偽
陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。
出典:奥村先⽣生のサイト「ROC曲線」
http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
AUCってマーケティングにも使
えますねー、itoさん!
ここから本に書いているネタです。(あらすじ)
例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす
る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入者グループを0と
し、2項ロジスティック回帰分析にかけてみる。
2項ロジスティックだと、オッズ⽐比が求められるので、これによってどちらの
グループに属しやすいのかがわかる。例例えば、オッズ⽐比が1.5だと、1のグルー
プに1.5倍の確率率率で属しやすくなるといったようなこと。
ただ、属しやすさがわかったものの、精度度がどのくらいかがいまいちわからな
い。そこでAUCをつかってみると、より注⽬目して調査する説明変数を絞り込
むことができる。
Rではこう書く
2項ロジスティック回帰の求め⽅方。
glm(y ~ x, data, family=“binomial”)
AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに
よって計算ロジックが異異なります。状況にあわせて使った⽅方がよさそう。
例例
logistics <- glm(y ~ x, data, family=“binomial”)
summaryLogistics <- summary(logistics )
colAUC(predict(summaryLogistics , type="response"), y, alg="ROC")))

Contenu connexe

Plus de Hiroko Onari

Social network analysis for startups ch6
Social network analysis for startups ch6Social network analysis for startups ch6
Social network analysis for startups ch6Hiroko Onari
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingHiroko Onari
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析Hiroko Onari
 
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワークHiroko Onari
 
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215Hiroko Onari
 
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208Hiroko Onari
 
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122Hiroko Onari
 
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座Hiroko Onari
 
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニングTokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニングHiroko Onari
 

Plus de Hiroko Onari (9)

Social network analysis for startups ch6
Social network analysis for startups ch6Social network analysis for startups ch6
Social network analysis for startups ch6
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
 
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク
 
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
 
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208複雑ネットワーク勉強会  二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
 
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
 
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
 
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニングTokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
 

はじめてのパターン認識勉強会 20130716