Soumettre la recherche
Mettre en ligne
はじめてのパターン認識勉強会 20130716
•
16 j'aime
•
13,267 vues
Hiroko Onari
Suivre
『はじめてのパターン認識』読書会の発表資料。 第3章ベイズの識別規則の後半になります。
Lire moins
Lire la suite
Formation
Signaler
Partager
Signaler
Partager
1 sur 15
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
学ロボの制御
学ロボの制御
Kotaro Yoshimoto
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Prunus 1350
はじパタ2章
はじパタ2章
tetsuro ito
teaming and weak internal information
teaming and weak internal information
Hiroko Onari
Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形
Thank you communication network in organization 感謝ネットワークからみる組織のコミュニケーションの形
Hiroko Onari
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Hiroko Onari
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Hiroko Onari
集合知プログラミング第2章推薦を行う
集合知プログラミング第2章推薦を行う
Hiroko Onari
Contenu connexe
Plus de Hiroko Onari
Social network analysis for startups ch6
Social network analysis for startups ch6
Hiroko Onari
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
Hiroko Onari
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
Hiroko Onari
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク
Hiroko Onari
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
Hiroko Onari
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
Hiroko Onari
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
Hiroko Onari
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
Hiroko Onari
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Hiroko Onari
Plus de Hiroko Onari
(9)
Social network analysis for startups ch6
Social network analysis for startups ch6
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 二部グラフの基礎と応用 20120208
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
複雑ネットワーク勉強会 第2章前半(R, gephi, cytoscapeの事例付) 20120122
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
はじめてのパターン認識勉強会 20130716
1.
第3章 ベイズの識識別規則 後半 第3回『はじめてのパターン認識識』読書会
#はじパタ 16th July, 2013 @millionsmile
2.
3.2 受信者動作特性曲線 要はROC曲線とAUCの話です。
3.
ROC曲線のはじまり 受信動作特性曲線(ROC曲線; receiver operator
characteristics curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出 するための⽅方法として開発された。 出典: Wikipedia http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF %A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7 そのため「受信者動作特性」というレーダーっぽい感じの名前がついて いるようだが、この計算⽅方法は、分類アルゴリズムの性能評価法として、 医療療分野でよく使われている。ミスがあってはならぬ世界ですからね。
4.
ROC曲線の⾔言葉葉の定義 2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と なる。 属していると判断 → p(陽性;positive) 属していないと判断 → n(陰性;negative) 正しく分類されている → 真(True) 間違って分類されている → 偽(False)
5.
ROC曲線で性能評価値を計算
6.
ROC曲線の求め⽅方 偽陽性 → 偽のものを真と判断した割合 真陽性 → 真のものを正しく真と判断した割合 正確度度 → 真と偽を正しく識識別した割合 適合率率率 → 検索索された⽂文書中の適合⽂文書の割合 例例)検索索エンジンで100件表⽰示されたとき、100件のうち、 検索索者が必要とするページ数の割合 再現率率率 → 適合している全⽂文書からどれだけ検索索できているか(網羅羅性) 例例)検索索エンジンで100件表⽰示されたとき、検索索者が必要とする 全ページのうち何件が100件に含まれているかという割合 ただし、検索索者が必要とする全ページ数はわからないので、 真陽性率率率をつかって推定を⾏行行う。真陽性率率率だと正しいものの 数が正確にわかっているため。
7.
ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。
8.
ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。 Answer 検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ げるために誤りを減らそうとすると、必要なページまで検索索対象からはずすこ とになるので、80件検索索されて75件正しいというようなことになり、結果と して再現率率率が下がる。
9.
ROC曲線の求め⽅方 ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ にしたもの(右図) [よいところ] 偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の クラス内で計算するため、クラスのデータ数に⼤大 きな差があってもROC曲線には影響うけない。 [活⽤用例例] 医療療では、病気のクラスは健康なクラスに⽐比べて データ数が極端に少ないが、それでも安定した性 能評価が期待できる。
10.
ROC曲線の求め⽅方 陽性と陰性のクラス分布(右図) p(x|p*)が陽性のクラスの尤度度 p(x|n*)が陰性のクラスの尤度度 識識別境界がBとき、R1の領領域が陽性、R2が陰性 陽性クラスのうち、ε1が陰性と判断(偽陰性) ε2が陽性と判断(偽陽性)されたもの。 ε1を第1種の誤り(miss)、 ε2が第2種の誤り(false alarm) 陽性クラスのうち、陽性と判断される割合は、 1-ε1となる
11.
ROC曲線による性能評価(AUC) ROC曲線は、クラス間の重なりが少ないほど左 上にシフトする。 ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC; area under ROC
curve)といい、識識別器の性能 をあらわす評価尺度度として使われる。 ※テキストでは”AUR”となっていますが、問い合わせたとこ ろ、”AUC”が正しいとのことです。そのうち正誤表に反映されるらしい です。 AUCは1.0〜~0.5の間をとり、1.0に近いほど性能 がよいと判断できる。1.0(左上の位置)だと完全 な識識別器であり、0.5(右上から左下への線)だと ランダムな識識別器となる。 AUC
12.
ROC曲線による性能評価(AUC) ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる 点である。 ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。 しきい値をいくつか設定していくことで、ROC曲線が描かれる。
13.
ROC曲線による性能評価(AUC) 奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。 抜粋 例例えば11で切切って,11以上を陽性(positive),11未満を陰性 (negative)とした場合,10個のTのうち5個がpositiveに⼊入り ますので,true positive(真陽性)の割合は0.5です。また,5 個のFのうち1個がpositiveに⼊入りますので,false positive(偽 陽性)の割合は0.2です。そこで,(0.2,
0.5) をプロットします。 出典:奥村先⽣生のサイト「ROC曲線」 http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
14.
AUCってマーケティングにも使 えますねー、itoさん! ここから本に書いているネタです。(あらすじ) 例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入者グループを0と し、2項ロジスティック回帰分析にかけてみる。 2項ロジスティックだと、オッズ⽐比が求められるので、これによってどちらの グループに属しやすいのかがわかる。例例えば、オッズ⽐比が1.5だと、1のグルー プに1.5倍の確率率率で属しやすくなるといったようなこと。 ただ、属しやすさがわかったものの、精度度がどのくらいかがいまいちわからな い。そこでAUCをつかってみると、より注⽬目して調査する説明変数を絞り込 むことができる。
15.
Rではこう書く 2項ロジスティック回帰の求め⽅方。 glm(y ~ x,
data, family=“binomial”) AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに よって計算ロジックが異異なります。状況にあわせて使った⽅方がよさそう。 例例 logistics <- glm(y ~ x, data, family=“binomial”) summaryLogistics <- summary(logistics ) colAUC(predict(summaryLogistics , type="response"), y, alg="ROC")))
Télécharger maintenant