「樹木モデルとランダムフォレスト(Tree-based Models and Random Forest) -機械学習による分類・予測-」。 Tree-based Model, Random Forest の入門的な内容です。機械学習・データマイニングセミナー 2010/10/07 。 hamadakoichi 濱田晃一
11. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 11
12. Random Forest : 長所
Random Forest の
主な長所
・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる
12
14. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 14
15. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 15
16. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 16
34. 樹木モデル: 分岐基準
条件ノード A を条件ノードALとARに分けるとき
以下のΔIを最大化する分割を行う
Classification And Regression Trees (CART)
(Breiman et al, 1984)
分類木
Entropy
GINI係数
※ :条件ノード A で クラス k をとる確率
回帰木
尤離度(deviance)
※ :条件ノード A での目標変数 t の平均値 34
43. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 43
44. Random Forest とは
樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 44
54. Random Forest
樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 54
63. Random Forest アルゴリズム
全樹木モデルで
分類・回帰予測の結果算出
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
63
64. Random Forest アルゴリズム
全樹木モデルの結果を統合する
分類:多数決、回帰予測:平均
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 64
65. Random Forest アルゴリズム
樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 65
66. Random Forest : 長所
Random Forest の
主な長所
・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる
66
90. 参考資料:R/CART/Random Forest
Rによるデータサイエンス Rによる統計解析
~データ解析の基礎から最新手法まで ~
http://www.slideshare.net/hamadakoichi/r-r-3201648
■CART:
L. Breiman, J. H. Friedman, R. A. Olshen and. C. J. Stone:
“Classification and Regression Trees.”, Wadsworth (1984)
■Random Forest:
L. Breiman. Random forests. Machine Learning, 45, 5–32 (2001)