4. Random Forests誕生の背景
(2009年日本計量生物学会から)
• L. Breimanは大学をリタイアしてコンサルティ
ングの業務に就いた
• しかし現実のデータ解釈に従来の統計手法
はうまく適合しなかった
• よくよく調べてみるとこれらはノンパラメトリッ
クな分布ばかりだった
• 苦心の末2001年Random Forestsを完成
– L. Breimanの誕生年は1928年、つまり …
• ちなみに没年は2005年
5. Random Forest or Forests?
• 原著はRandom Forests
– http://www.stat.berkeley.edu/~breiman/RandomForests/
• Google R. Forest > R. Forests
• Google scholar R. Forest < R. Forests
• Pubmed R. Forest > R. Forests
• 最近はRandom Forestsの方が多い?
– 某第二版ではRandom Forestsに変更
• もちろんそれが改訂の全てではないです … ^_^;;
15. Random Forests 教師なし判別
• 目的変数は与えない
• MDSplotで類似性を可視化
> library(randomForest)
> iris.urf = randomForest(iris[,-5], ntree=200)
> iris.urf
Call:
randomForest(x = iris[, -5], ntree = 200)
Type of random forest: unsupervised
Number of trees: 200
No. of variables tried at each split: 2
> sqrt(ncol(iris[,-5]))
[1] 2
16. Random Forests 教師あり判別
• 弱い決定木を複数個生成し多数決
> class(iris$Species)
[1] "factor"
> (iris.crf = randomForest(Species ~ ., data=iris))
Call:
randomForest(formula = Species ~ ., data = iris)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 2
OOB estimate of error rate: 4.67%
Confusion matrix:
setosa versicolor virginica class.error
setosa 50 0 0 0.00
versicolor 0 47 3 0.06
virginica 0 4 46 0.08
17. Random Forests 回帰
• 弱い回帰木を複数個生成し平均
> data(BloodBrain, package="caret")
> class(logBBB)
[1] "numeric"
> (bbbDescr.rrf <- randomForest(bbbDescr, logBBB))
Call:
randomForest(x = bbbDescr, y = logBBB)
Type of random forest: regression
Number of trees: 500
No. of variables tried at each split: 44
Mean of squared residuals: 0.2632423
% Var explained: 56.45
> max(floor(ncol(bbbDescr)/3), 1)
[1] 44
28. その他関連論文
• Random Survival Forests (randomSurvivalForestパッケージ)
• Conditional inference forests (partyパッケージcforest関数)
– Strobl C et al, Conditional variable importance for random forests, BMC
Bioinformatics. 2008 Jul 11;9:307
• RF++ (http://sourceforge.net/projects/rfpp/)
– Yuliya V et al, An Introspective Comparison of Random Forest-Based
Classifiers for the Analysis of Cluster-Correlated Data by Way of RF++,
PLoS One. 2009 Sep 18;4(9):e7087
• Semi supervised RF
– Teramoto R, Prediction of Alzheimer's diagnosis using semi-supervised
distance metric learning with label propagation, Comput Biol Chem.
2008 Dec;32(6):438-41.
• Logic Forest (LogicForestパッケージ)
– Wolf BJ et al, Logic Forest: an ensemble classifier for discovering
logical combinations of binary markers., Bioinformatics. 2010 Sep
1;26(17):2183-9.
29. 参考文献
• Breiman L, Random forests. Machine Learning 2001, 45:5-32.
• Andy L et al, Classification and Regression by randomForest, R
News (2002) Vol. 2/3
• Hastie et al, The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, Second Edition (2009), 978-0387848570
• 江口 真透,ゲノムデータ・オミックスデータを解析するための新しい統計
方法と機械学習の方法,日本計量生物学会(2009)
• 金 明哲, Rによるデータサイエンス, 森北出版 (2007), 978-4627096011
• 岡田 他, Rパッケージガイドブック, 東京図書(2011), 978-4489020971