SlideShare a Scribd company logo
1 of 19
Download to read offline
20140610	
  
第3回「データ解析のための統計モデリング入門」読書会	
  
@siero5335	
  
一般化線形モデル	
  (GLM)	
  
ポアソン回帰:前半
Twitter ID: @siero5335
仕事: 某大学で
   化学物質曝露影響の解析
   測定法の開発してます
   専門: 環境化学、分析化学
R→ 測定結果のまとめに使用
 自己紹介
 3章前半アウトライン
目的
・モデリングの手順
・一般化線形モデル (GLM) の結果の見かた
実際の内容	
  
	
  
・データ取り込み	
  
	
  
・データの可視化	
  
	
  
・結果の確認	
  
	
  
・モデルをプロット上に書いて確認	
  
 d	
  <-­‐	
  read.csv("h=p://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv")
 3章で使うデータ
 3章で使うデータ	
  (可視化)
plot(d$x,	
  d$y,	
  pch	
  =	
  c(21,	
  19)[d$f])	
  
legend("topleV",	
  legend	
  =	
  c	
  ("C",	
  "T"),	
  pch	
  =	
  c	
  (21,	
  19))
体サイズが大きくなると種子数yが増加する…ような
 3章で使うデータ	
  (可視化)
plot(d$f,	
  d$y)
施肥処理の効果fはあんまり種子数と関係がなさそう
個体ごとの平均種子数yを	
  	
  
体サイズxや施肥処理fから推定したい	
  
	
  
可視化の結果、施肥処理はあんまり関係がなさそう
だったので、ひとまず体サイズと種子数の関係を解析	
  
	
  
ある個体iにおいて種子数がyiである確率	
  
p(yi|λi)はポアソン分布に従っていて	
  
	
  
	
  
	
  
と仮定する。	
  
 モデルの目的
p(yi | λi ) =
λi
yi
exp(−λi )
yi !
一般化線形モデル:	
  Generalized	
  linear	
  model	
  
	
  
GLMの特徴	
  
	
  
線形予測子	
  	
  
誤差構造に正規分布以外の確率分布を指定できる	
  	
  
リンク関数が使える	
  
	
  
 一般化線形モデル	
  (GLM)
 線形予測子
λi = exp(β1 + β2 xi )
切片 傾き
λi = exp(β1 + β2 xi )
線形予測子
定数項および説明変数の係数と説明変数の積からなる
 GLMでよく使われる確率分布
“gaussian”	
  
	
  
“poisson”	
  
	
  
“binomial”	
  
	
  
“Gamma”	
  
	
  
	
  
連続変数,	
  -­‐∞	
  ∼	
  +∞	
  
	
  
離散変数,	
  	
  0	
  ∼	
  +∞	
  
	
  
離散変数,	
  0	
  ∼	
  +∞	
  
	
  
連続変数で正の値,	
  ∼	
  +∞	
  
	
  
glm(formula,	
  family	
  =	
  gaussian	
  (link	
  =	
  “idenaty”),	
  	
  data)
目的変数の性質や可視化を利用して当てはまりそうなものを選択
6章で詳しい話が出ます
マニアックな方にはこちら	
  
	
  
統計分布ハンドブック	
  
	
  
h=p://amzn.to/1tL2oqh
	
  
 代表的なリンク関数
“idenaty”	
  
	
  
“log”	
  
	
  
“logit”	
  
	
  
“sqrt”	
  
	
  
“1/mu^2”	
  
	
  
“inverse”	
  
	
  
“power”
	
  
	
  
	
  
恒等リンク,	
  目的変数の期待値λ	
  =	
  線形予測子x	
  
	
  
対数リンク,	
  log	
  (λ)	
  =	
  x	
  
	
  
ロジットリンク,	
  log(λ/1-­‐λ)	
  =	
  x	
  
	
  
平方根リンク,	
  sqrt(λ)	
  =	
  x	
  
	
  
1/λ2	
  =	
  線形予測子x	
  
	
  
逆数リンク,	
  1/λ	
  =	
  x	
  
	
  
べき乗リンク,	
  λn	
  =	
  x	
  
指定した確率分布に線形予測子を上手くあてはめるために使う
glm(formula,	
  family	
  =	
  gaussian	
  (link	
  =	
  “idenaty”),	
  	
  data)
 結果の見かた1,	
  Rコードと結果の表示
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
 結果の見かた2,	
  切片,	
  傾き
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
切片 傾き
λi = exp(β1 + β2 xi )
 結果の見かた,	
  標準誤差
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Std.	
  Error:	
  標準誤差	
  
推定値   のばらつきを標準偏差で表したもの	
  
推定値の精度の指標
β1,β2
 結果の見かた,	
  z値
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Z	
  value:	
  Z値
最尤推定値をSEで除した数	
  =	
  Esamate/Std.	
  Error	
  
	
  
Wald統計量とも呼ばれる。	
  
Wald信頼区間を構成して推定値が0から十分に離れているか確認できる。	
  
数字が大きい時ほど十分離れている	
  
	
  
	
   0から離れている	
   	
  その指標が有効である	
  
 結果の見かた,	
  Pr(>|z|)	
  
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Pr(>|z|)	
  
数字が大きいほどz値が0に近くなり、推定値が0に近いことを表
す。	
  
P値に見立てる人もいるが、信頼区間の指標と考えるのがベター
小さい値であるほど信頼区間が狭い	
   	
  推定値が信頼できそう
 結果の見かた,	
  対数最大尤度
>	
  logLik(fit)	
  
'log	
  Lik.'	
  -­‐235.3863	
  (df=2)
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
対数最大尤度	
  (モデルの当てはまりの良さの指標)	
  を確認	
  
値が大きいほど当てはまりがよい	
  
	
  
df:	
  自由度を表す。	
  
  今回は最尤推定したパラメータ数が2個であることを示す。	
  
	
  
計算式は@kos59125さんの二章まとめスライドを参照	
  
h=p://1drv.ms/1nPspmJ	
  :2.4参照
 予測モデルの可視化
plot(d$x,	
  d$y,	
  pch	
  =	
  c(21,	
  19)[d$f])	
  
xx	
  <-­‐	
  seq(min(d$x),	
  max(d$x),	
  length	
  =	
  50)	
  
lines(xx,	
  exp(1.29	
  +	
  0.0757*	
  xx),	
  lwd	
  =2)	
  
	
  
作ったモデルをプロット上に書いて確認	
  
 モデリングのサイクル(3章前半時点)
データ取り込み	
  
	
  
データの可視化	
  	
  
	
  
モデルの要約,	
  最大対数尤度の確認	
  
	
  
予測モデルの可視化	
  
1セット
今後は?	
  
	
  
変数を増やした場合にどうなるか → 後半	
  
複数のモデルを比較 → 4章,	
  5章	
  
誤差構造が他の確率分布の時は?	
  →	
  6章	
  

More Related Content

What's hot

階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデルlogics-of-blue
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)Hiroshi Shimizu
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデルMatsuiRyo
 
2 2.尤度と最尤法
2 2.尤度と最尤法2 2.尤度と最尤法
2 2.尤度と最尤法logics-of-blue
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)itoyan110
 
R stan導入公開版
R stan導入公開版R stan導入公開版
R stan導入公開版考司 小杉
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみたTakashi Yamane
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰logics-of-blue
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9考司 小杉
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
 
レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成Nagi Teramo
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 

What's hot (20)

階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデル
 
2 2.尤度と最尤法
2 2.尤度と最尤法2 2.尤度と最尤法
2 2.尤度と最尤法
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
R stan導入公開版
R stan導入公開版R stan導入公開版
R stan導入公開版
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 

Similar to みどりぼん3章前半

20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則koba cky
 
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1OkKubo_Takuya
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)Takashi J OZAKI
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来Hidekazu Oiwa
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩t_ichioka_sg
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門Masaki Tsuda
 
はじめてのベイズ推定
はじめてのベイズ推定はじめてのベイズ推定
はじめてのベイズ推定Kenta Matsui
 
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門Takashi Kitano
 

Similar to みどりぼん3章前半 (20)

20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
 
Salmon cycle
Salmon cycleSalmon cycle
Salmon cycle
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
C07
C07C07
C07
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
C04
C04C04
C04
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
Rを用いたGIS
Rを用いたGISRを用いたGIS
Rを用いたGIS
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
R intro
R introR intro
R intro
 
はじめてのベイズ推定
はじめてのベイズ推定はじめてのベイズ推定
はじめてのベイズ推定
 
RとCDISC
RとCDISCRとCDISC
RとCDISC
 
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門
 

More from Akifumi Eguchi

PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73Akifumi Eguchi
 
High-order factorization machines with R #tokyor 61
High-order factorization machines with R  #tokyor 61High-order factorization machines with R  #tokyor 61
High-order factorization machines with R #tokyor 61Akifumi Eguchi
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本Akifumi Eguchi
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728Akifumi Eguchi
 
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical LearningAkifumi Eguchi
 
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thMxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thAkifumi Eguchi
 
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測Akifumi Eguchi
 
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」Akifumi Eguchi
 
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Akifumi Eguchi
 
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Akifumi Eguchi
 
第2回ぞくパタ
第2回ぞくパタ第2回ぞくパタ
第2回ぞくパタAkifumi Eguchi
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタAkifumi Eguchi
 
ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめにAkifumi Eguchi
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半Akifumi Eguchi
 

More from Akifumi Eguchi (19)

PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73
 
High-order factorization machines with R #tokyor 61
High-order factorization machines with R  #tokyor 61High-order factorization machines with R  #tokyor 61
High-order factorization machines with R #tokyor 61
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
 
Dslt祭り2夜
Dslt祭り2夜Dslt祭り2夜
Dslt祭り2夜
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
 
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
 
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thMxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
 
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
 
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
 
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用
 
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
 
第2回ぞくパタ
第2回ぞくパタ第2回ぞくパタ
第2回ぞくパタ
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタ
 
ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめに
 
Tokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptxTokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptx
 
Tokyo r #43
Tokyo r #43Tokyo r #43
Tokyo r #43
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半
 
Tokyo R #39
Tokyo R #39Tokyo R #39
Tokyo R #39
 

みどりぼん3章前半

  • 1. 20140610   第3回「データ解析のための統計モデリング入門」読書会   @siero5335   一般化線形モデル  (GLM)   ポアソン回帰:前半
  • 2. Twitter ID: @siero5335 仕事: 某大学で    化学物質曝露影響の解析    測定法の開発してます    専門: 環境化学、分析化学 R→ 測定結果のまとめに使用  自己紹介
  • 3.  3章前半アウトライン 目的 ・モデリングの手順 ・一般化線形モデル (GLM) の結果の見かた 実際の内容     ・データ取り込み     ・データの可視化     ・結果の確認     ・モデルをプロット上に書いて確認  
  • 5.  3章で使うデータ  (可視化) plot(d$x,  d$y,  pch  =  c(21,  19)[d$f])   legend("topleV",  legend  =  c  ("C",  "T"),  pch  =  c  (21,  19)) 体サイズが大きくなると種子数yが増加する…ような
  • 7. 個体ごとの平均種子数yを     体サイズxや施肥処理fから推定したい     可視化の結果、施肥処理はあんまり関係がなさそう だったので、ひとまず体サイズと種子数の関係を解析     ある個体iにおいて種子数がyiである確率   p(yi|λi)はポアソン分布に従っていて         と仮定する。    モデルの目的 p(yi | λi ) = λi yi exp(−λi ) yi !
  • 8. 一般化線形モデル:  Generalized  linear  model     GLMの特徴     線形予測子     誤差構造に正規分布以外の確率分布を指定できる     リンク関数が使える      一般化線形モデル  (GLM)
  • 9.  線形予測子 λi = exp(β1 + β2 xi ) 切片 傾き λi = exp(β1 + β2 xi ) 線形予測子 定数項および説明変数の係数と説明変数の積からなる
  • 10.  GLMでよく使われる確率分布 “gaussian”     “poisson”     “binomial”     “Gamma”       連続変数,  -­‐∞  ∼  +∞     離散変数,    0  ∼  +∞     離散変数,  0  ∼  +∞     連続変数で正の値,  ∼  +∞     glm(formula,  family  =  gaussian  (link  =  “idenaty”),    data) 目的変数の性質や可視化を利用して当てはまりそうなものを選択 6章で詳しい話が出ます マニアックな方にはこちら     統計分布ハンドブック     h=p://amzn.to/1tL2oqh  
  • 11.  代表的なリンク関数 “idenaty”     “log”     “logit”     “sqrt”     “1/mu^2”     “inverse”     “power”       恒等リンク,  目的変数の期待値λ  =  線形予測子x     対数リンク,  log  (λ)  =  x     ロジットリンク,  log(λ/1-­‐λ)  =  x     平方根リンク,  sqrt(λ)  =  x     1/λ2  =  線形予測子x     逆数リンク,  1/λ  =  x     べき乗リンク,  λn  =  x   指定した確率分布に線形予測子を上手くあてはめるために使う glm(formula,  family  =  gaussian  (link  =  “idenaty”),    data)
  • 12.  結果の見かた1,  Rコードと結果の表示 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *    
  • 13.  結果の見かた2,  切片,  傾き fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     切片 傾き λi = exp(β1 + β2 xi )
  • 14.  結果の見かた,  標準誤差 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Std.  Error:  標準誤差   推定値   のばらつきを標準偏差で表したもの   推定値の精度の指標 β1,β2
  • 15.  結果の見かた,  z値 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Z  value:  Z値 最尤推定値をSEで除した数  =  Esamate/Std.  Error     Wald統計量とも呼ばれる。   Wald信頼区間を構成して推定値が0から十分に離れているか確認できる。   数字が大きい時ほど十分離れている       0から離れている    その指標が有効である  
  • 16.  結果の見かた,  Pr(>|z|)   fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Pr(>|z|)   数字が大きいほどz値が0に近くなり、推定値が0に近いことを表 す。   P値に見立てる人もいるが、信頼区間の指標と考えるのがベター 小さい値であるほど信頼区間が狭い    推定値が信頼できそう
  • 17.  結果の見かた,  対数最大尤度 >  logLik(fit)   'log  Lik.'  -­‐235.3863  (df=2) fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )   対数最大尤度  (モデルの当てはまりの良さの指標)  を確認   値が大きいほど当てはまりがよい     df:  自由度を表す。     今回は最尤推定したパラメータ数が2個であることを示す。     計算式は@kos59125さんの二章まとめスライドを参照   h=p://1drv.ms/1nPspmJ  :2.4参照
  • 18.  予測モデルの可視化 plot(d$x,  d$y,  pch  =  c(21,  19)[d$f])   xx  <-­‐  seq(min(d$x),  max(d$x),  length  =  50)   lines(xx,  exp(1.29  +  0.0757*  xx),  lwd  =2)     作ったモデルをプロット上に書いて確認  
  • 19.  モデリングのサイクル(3章前半時点) データ取り込み     データの可視化       モデルの要約,  最大対数尤度の確認     予測モデルの可視化   1セット 今後は?     変数を増やした場合にどうなるか → 後半   複数のモデルを比較 → 4章,  5章   誤差構造が他の確率分布の時は?  →  6章