5分でわかるかもしれないglmnet

glmnet
第48回勉強会＠東京(#TokyoR)
@teramonagi
5分でわかるかもしれない

俺や
• ID: @teramonagi
• 職種：データ分析おじさん
• 業務：ブカーの育成&会議＆翻訳
• 言語：/R/F#/Ruby/Python/C++/
• 特技：早起き・根回し
3
優秀な新人怖い

glmnetとは
glmnet = glm+愛の鞭
4
※glm:一般化線形モデル(用の関数)
※一般化線形モデルの解説はしない

glmnetとは
• 愛の鞭(正則化)を一般化線形モデル
(GLM)に適用できるパッケージ
• 愛の鞭(正則化)の種類
–Lasso (ラッソ, L1正則化)
–Ridge(リッジ , L2正則化)
–Elastic-net(L1+L2正則化)
• カバーされているGLMなモデル
–線形、（多項 or 多クラス）ロジス
ティック、ポアソン、コックスモデル
5

モデルの目的関数
6
ラッソリッジ
尤度関数(モデル依存) 愛の鞭(正則化)
Elastic-Net
※パラメーター推計の際には
これが最小化される

パラメータ計算
• パラメーター推定のアルゴリズム
–Coordinate Descent
• 詳細
–Friedman, J., Hastie, T. and Tibshirani,
R. (2008) Regularization Paths for
Generalized Linear Models via
Coordinate Descent, Journal of
Statistical Software, Vol. 33(1), 1-22
Feb 2010
–http://www.jstatsoft.org/v33/i01/
7

早速、使ってみる
8
#パッケージをインストールして読み込む
install.packages("glmnet")
library(glmnet)

データの取得
• irisじゃつまらないので、 UCI machine learning
repositoryからワインデータ取得
9
library(dplyr)
#ワインデータの読み込み（ダウンロード）
URL <- "http://archive.ics.uci.edu/ml/machine-learning-
databases/wine-quality/winequality-white.csv"
df <- read.csv(URL, sep = ";", stringsAsFactor=FALSE)
#ワインの質(quality)が5, 6のものだけ残して,0,1化する
wine <- df %>%
filter(quality==5|quality==6) %>%
mutate(quality=quality-5)

glmとの比較(2クラス分類)
10
#statsパッケージのglm（説明変数は適当）
wine_glm <- glm(
quality ~ residual.sugar+sulphates+alcohol,
data=wine, family=binomial)
#質(quality)の予測（確率が0.5以上ならクラス1)
quality_glm <- predict(wine_glm, wine, type='response')
table(wine$quality, round(quality_glm))
※glmでの答え（混同行列）

glmとの比較(2クラス分類)
11
#いちいち行列に変換する必要がある
x <- wine %>%
select(residual.sugar, sulphates, alcohol) %>%
as.matrix
y <- wine %>% select(quality) %>% unlist
#glmと同じ結果を出させる
#lambda単一の値は非推奨（らしい）が動く…
#lamdbaに複数入れておいて、predictの引数をs=0にするでもOK
wine_glmnet <- glmnet(x, y, family=“binomial”, lambda=0)
quality_glmnet <- predict(wine_glmnet, newx=x, type=“class”)
table(wine$quality, quality_glmnet)
※glmnetでの答え（混同行列）
※愛の鞭なしでglmと一致

glmnetのクロスバリデーション
• クロスバリデーションで愛の鞭の痛さを調整できます
12
#CVで最適な"お仕置き"を決定して計算
wine_cv <-
cv.glmnet(x, y, family="binomial", type.measure="class")
quality_cv <-
predict(wine_cv, newx=x, type="class", s="lambda.min")
table(wine$quality, quality_cv)
※正解率が改善

多クラスロジスティック回帰
• glmnetは多クラスロジステック回帰できる
– 分類すべきクラス数が２ではなく複数
– 一対他分類器ではない!!!
• 他にもこれができるパッケージある
– VGAMのvglm関数(2015年更新確認)
– mlogitのmlogit関数(2013年更新停止)
– nnetのmultinom関数(2015年更新確認)
• でも、愛の鞭(正則化)があるし、あと開発者ら
が「統計的学習の基礎」の著者らなんで、
glmnetでいきたい…（ちなみにnnetはRのコア
メンバーBrian Ripley氏が開発されています）
13

• family=“multinomial”とするだけ
• ワインデータはワイン全種類のも
のを使用（複数クラスなんで）
14
x <- df %>%
select(residual.sugar, sulphates, alcohol) %>%
as.matrix
y <- df %>% select(quality) %>% unlist
wine_cv <-
cv.glmnet(x, y, family="multinomial", type.measure="class")
quality_cv <-
predict(wine_cv, newx=x, type="class", s="lambda.min")

15
table(df$quality, quality_cv)
• 結果を表示

みんな大好きirisで
16
x <- as.matrix(iris[,-5])
y <- iris[,5]
iris_cv <-
cv.glmnet(x, y, family="multinomial", type.measure="class")
species_cv <-
predict(iris_cv, newx=x, type="class", s="lambda.min")
table(y, species_cv)

みんな大好きirisで
正解予測値
17

ここがイケてないよglmnet
• 引数(x, y)が行列限定
• 引数(x)が”数値”限定で、因子不可
• ガンガン使うようだったら、使い
やすいように修正したパッケージ
作っちゃった方が楽かも？
18

参考
• glmnetパッケージのvignette
– http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
• Friedman, J., Hastie, T. and Tibshirani, R. (2008) Regularization
Paths for Generalized Linear Models via Coordinate Descent,
Journal of Statistical Software, Vol. 33(1), 1-22 Feb 2010
– http://www.jstatsoft.org/v33/i01/
• LASSO and Ridge regression
– http://d.hatena.ne.jp/isseing333/20110309/1299675311
• リッジ/Ridge回帰、Lasso回帰、Elastic Net (R - glmnet)
– http://highschoolstudent.hatenablog.com/entry/2015/02/08/142354
• RでL1 / L2正則化を実践する
– http://tjo.hatenablog.com/entry/2015/03/03/190000
19

5分でわかるかもしれないglmnet

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

More from Nagi Teramo

More from Nagi Teramo (20)

Recently uploaded

Recently uploaded (11)

5分でわかるかもしれないglmnet