Contenu connexe Plus de Tatsuya Coike (6) Way of Experiment & Evaluation1. Machine Learning
for Natural Language Processing
- Way of Experiment & Evaluation –
Meiji University
Seminar 2 B3 Tatsuya Coike
Web : lanevok.com
pp. 162-178
2012.10.11 (Thu)
2. Way of Experiment & Evaluation 2
Outline
• 1. 実験 (Experiment)
準備/データセット/データの種類/交差検定/
クラスとラベル/分類問題
• 2. 評価 (Evaluation)
分類正解率/適合性/精度と再現率/統合/
多値分類/正例と不例/マクロ,マイクロ平均
• 3. 検定 (Statistical Test)
統計的検定/考え方/p値の計算方法
4. Way of Experiment & Evaluation 4
1.1 実験 の 準備
実験プログラムとデータの入手
• WEKA (Data Mining with Open Source
Machine Learning Software in Java)
• README (Input Format)
• Data Set (p.185)
5. Way of Experiment & Evaluation 5
1.2 データセット
• 事例 (Instance)
• Data Set の 事例数 (= Data Size)
※ データサイズ ≠ データ数 分類
新聞 Wikipedia 事例数 3
データ数 2
記事 (Data Size)
Data Set A
Data Set B
図 1.2 データサイズとデータ数
6. Way of Experiment & Evaluation 6
1.3 データ の 種類
• 訓練データ (Training Data) … モデルなどの学習に用いる
• 評価データ (Test Data) … 分類できたかの評価に用いる
• 開発データ (Development Data) … 定数決定の為のデータ
・Naive Bayes Classifier の事前確率 α
・Support Vector Machine (SVM) C
7. Way of Experiment & Evaluation 7
1.4 交差検定
実験→
• Cross-Validation
Data Set A1 評価 訓練 訓練
Data Set A2 訓練 評価 訓練
分割
Data Set A
Data Set A3 訓練 訓練 評価
図 1.4 交差検定
8. Way of Experiment & Evaluation 8
1.5 クラス と ラベル
赤
赤でない
赤
Class O
青
Class X Class R
分類
Class B
不明
分類
黒
Class E
りんご Class K
りんご 赤
Data Set A
青
Data Set B
図 1.5.1 クラス
図 1.5.2 ラベル
9. Way of Experiment & Evaluation 9
1.6 分類
二値分類問題 と 多値分類問題
Class > 2 Class = 2
• Class 多クラスデータセット 二値クラスデータセット
(Multi-Class Dataset) (Binary-Class Dataset)
Label > 1 Class = 1
• Label 複数ラベルデータセット 単一ラベルデータセット
(Multi-Label Dataset) (Single-Label Dataset)
11. Way of Experiment & Evaluation 11
2.1 分類正解率
• Classification Accuracy
• 単に 「正解率」 とも
(正解した評価事例数)
分類正解率 = (2.1)
(評価事例総数)
12. Way of Experiment & Evaluation 12
2.2 適合性
• 適合性 (Relevance)
客観的に見て、適合するものを結果として得られたか
• 完全性 … 漏れなく結果が得られているか
• 正確性 … 適合するものだけ結果が得られているか
13. Way of Experiment & Evaluation 13
𝒅
2.3 精度 と 再現率
𝒃 𝒂 𝒄
二値分類の評価指標
𝑎 予測できた属する数
• 精度 (Precision) = = (2.3.1)
𝑎+𝑏 属すると予測した総数
𝑎 属すると予測した数
• 再現率 (Recall) = = (2.3.2)
𝑎+𝑐 属する総数
• 分割表 (Contingency Table)
表 2.3 分割表
C に属する C に属さない
C であると予測 𝑎 𝑏
C でないと予測 𝑐 𝑑
14. Way of Experiment & Evaluation 14
2.4 精度 と 再現率 の 統合
• 精度 と 再現率 は トレードオフの関係
• 𝐹尺度 (𝐹値) (F-Measure) … 調和平均 (逆数の平均の逆数)
2 × (精度) × (再現率)
𝐹= 2.4
(精度) + (再現率)
2×0.9×0.5
Example : A (0.9 , 0.5) = = 0.64
0.9+0.5
2×0.8×0.6
(精度 , 再現率) B (0.8 , 0.6) = = 0.69
0.8+0.6
15. Way of Experiment & Evaluation 15
2.5 よく使われる 評価指標
• 再現率 / 精度 break-even ポイント
(Recall / Precision Break-Even Point)
→ 精度と再現率が一致する点
• 11点平均精度 図 2.5 再現率-精度グラフ
(Eleven Point Average Precision)
→ 再現率が 0.0 , 0.1 , … , 0.9 , 1.0 となる11点における
精度を計算し、算術平均を取る ※補間が必要
16. Way of Experiment & Evaluation 16
2.6 多値分類問題 の 評価
• 分類正解率 (cf. 2.1)
りんご 赤
青
複数ラベル の扱い
1. 複数のラベルが すべて予測 できた → 正解 (厳しい)
2. 複数のラベルのうち 一つでも予測 できた → 正解 (甘い)
17. Way of Experiment & Evaluation 17
2.7 二値分類 での 多値分類問題
d
c
b 𝐶1 𝐶2 𝐶3
𝑎
① ② ③
Data Set X
𝐶1 𝐶2 𝐶3
図 2.7 多クラス二値分類
18. Way of Experiment & Evaluation 18
2.8 正例 と 負例
• 二値分類問題
そのクラスに属する事例 → 正例
上記以外の事例 → 負例
→ クラス数分の分類器を構築 → 実験結果の統合
表 2.8 訓練データ
正クラス 正例 負例
C1 𝒂, 𝒃 𝒄, 𝒅
C2 𝒂, 𝒄 𝒃, 𝒅
C3 𝒅 𝒂, 𝒃, 𝒄
19. Way of Experiment & Evaluation 19
2.9 マクロ平均 と マイクロ平均
• マクロ平均 (Macro Average) → 評価指標の算術平均
𝑓1 +𝑓2 +𝑓3
Example : 各クラスの 𝐹値 を求めて → (2.9)
3
• マイクロ平均 (Micro Average) → 分割表を統合し評価
表 4.3 統合した分割表
各クラスに属する 属さない
各クラスであると予測 𝑎1 + 𝑎2 + 𝑎3 𝑏1 + 𝑏2 + 𝑏3
そうでないと予測 𝑐1 + 𝑐2 + 𝑐3 𝑑1 + 𝑑2 + 𝑑3
20. Way of Experiment & Evaluation 20
2.10 分類正解率 での 平均
• 分類正解率 の マクロ平均
1 𝐶1 正解数 𝐶2 正解数 𝐶3 正解数
𝐴𝑐 𝑚𝑎 = + + (2.10.1)
3 𝐶1 総数 𝐶2 総数 𝐶3 総数
• 分類正解率 の マイクロ平均
𝐶1 正解数 + 𝐶2 正解数 + 𝐶3 正解数
𝐴𝑐 𝑚𝑖 = (2.10.2)
𝐶1 総数 + 𝐶2 総数 + 𝐶3 総数
21. Way of Experiment & Evaluation 21
2.11 平均 の 使い分け
• マクロ平均 (Macro Average)
各データセットの大きさを無視して平等に扱う
• マイクロ平均 (Micro Average)
各データセットの大きさを考慮し、
小さなデータセットの影響は少なくする
「𝐹値」 「分類正解率」 の どちらでも計算可
23. Way of Experiment & Evaluation 23
3.1 統計的検定 とは
New
新しい手法の提案をする場合、
0.73 0.82
「既存手法の評価指標の値」
「提案手法の評価指標の値」 を比較する。
実験結果をどの程度信頼してよいか判定。
→ 統計的検定 (Statistical Test)
24. Way of Experiment & Evaluation 24
3.2 統計的検定 の 考え方
• 帰無仮説 (Null Hypothesis) … 否定したい仮説
「二つの手法の評価指標が同じ確率分布に従う」
• 𝑝値 (𝑝-value) … 帰無仮説が成り立つとしたときの確率
• 有意水準 (Significance Level)
𝑝値が一定値より低い → 非常に稀な結果 → 仮説×
慣習的に 0.05 , 0.01 を使用
25. Way of Experiment & Evaluation 25
3.3 p値 の 計算方法
• 符号検定 (Sign Test)
結果の差が良いか定義できない場合
分類正解率の検定で使われることが多い
• ウィルコクソンの符号付順位和検定
(Wilcoxon’s Signed Rank ST)
結果の差が定義できる場合 → 良さの点数が存在
• t - 検定 (t-Test)
正規分布に従っていると考えられる場合
→代表値間に差があるか
26. Way of Experiment & Evaluation 26
まとめ
• 評価指標の向上が何に起因しているか
• 提案手法において、ある工夫をした際
「工夫したもの」「工夫していないもの」を
それ以外の部分は同じにして比較する
• その問題における最先端の手法と比較をする
• 言語処理での「素性」
機械学習での「特徴」 が持つ意味を明確にする
27. Thank you for your listening.
- Way of Experiment & Evaluation –
28. Way of Experiment & Evaluation 28
4.1 Key Words
□ データセット □ 𝐹値
□ 事例 (数) □ break-even ポイント
□ 訓練データ □ 11点平均精度
□ 評価データ □ 正例
□ 開発データ □ 負例
□ 交差検定 □ マクロ平均
□ クラス □ マイクロ平均
□ ラベル □ 統計的検定
□ 二値分類 □ 帰無仮説
□ 多値分類 □ 𝑝値
□ 分類正解率 □ 有意水準
□ 精度 □ 符号検定
□ 再現率 □ ウィルコクソンの符号付順位和検定
□ 分割表 □ t - 検定
29. Way of Experiment & Evaluation 29
4.2 参考 (1)
表2.3 について その他の 評価指標
• フォールアウト (Fallout) … 再現率の代わりで使用もする
𝑏
𝐹= (4.2.1)
𝑏+ 𝑑
• 一般性 (Generality)
𝑎
𝐹= (4.2.2)
𝑎+ 𝑏+ 𝑐+ 𝑑
30. Way of Experiment & Evaluation 30
4.2 参考 (2)
• 𝐹尺度 (𝐹値) (F-Measure) 式 2.4 補足
1
𝐹= 4.2.3
1 1
𝛼 + 1− 𝛼
再現率 精度
※ α は 再現率と精度の重視比重を表すパラメータ
1
[関連] 𝛼= 4.2.4
𝛽2 +1
※ 𝛽 は 再現率に対して 精度を何倍重視 するか
31. Way of Experiment & Evaluation 31
4.2 参考 (3)
• 補間精度 (cf. 2.5) 11点平均精度 - 補間 補足
精度
𝑃
𝑃(𝑥) = max 𝑃𝑖 4.2.5
𝑥 ≤ 𝑅𝑖
𝑝(𝑥)
𝑥 𝑅
再現率
図4.2 補間精度