SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
第7章
一般化線形混合モデル(GLMM)
「データ解析のための統計モデリング入門」読書会
所沢義男
• ところさわよしお
• twitter:やってません
• Facebook:やってません
• Yo:DAISUKEI
今日これだけは覚える
•  擬似反復があるならランダム効果を考慮
•  その時、GLMは一般化線形混合モデル
(GLMM)になる
•  GLMMは計算が面倒
これまでとこれから
http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html
本題へ
7.1 例題の説明
•  架空植物の各個体から8個の種子をとって
くる
•  生存種子数は葉数とともにどのように増
大するか
•  個体数は100
•  データは本書のサポートサイトから入手
–  以下の条件のもと発生させたデータ(おそらく)
•  結実確率→傾き1 切片-4(+ランダム効果)のロジ
スティックモデル
•  ランダム効果→平均0標準偏差3の正規分布
図にするとこうなる
死  
死  
架空植物  
×100  
関係が  
気になる  
葉の数 生存種子数
元のデータ及び真の曲線
葉の数
生
存
種
子
数
GLMでモデリングしてみる
種子の生存確率
葉の数
GLMでモデリングしてみる
> d <- read.csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/
fig/glmm/data.csv", as.is=TRUE)
> glm(data=d, cbind(y,N-y)~x, family="binomial")
Call: glm(formula = cbind(y, N - y) ~ x, family = "binomial", data = d)
Coefficients:
(Intercept) x
-2.1487 0.5104
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 607.4
Residual Deviance: 513.8 AIC: 649.6
切片:-2.1487
傾き:0.5104
ここで
真の切片:-4
真の傾き:1
GLMうまくいかず
欲しかったもの
現実
葉の数
生
存
種
子
数
全然二項分布じゃない
葉の数4枚の場合の生存種子数と個体数の関係
生存種子数
個
体
数
GLMの
結果から
求めた
二項分布
どうしてこうなった
7.2 過分散と個体差
•  過分散
–  データから得られる分散が平均から推定される分散に比べて大き
すぎる
•  過分散とは統計モデリングしている人間の錯誤
–  観測されていない諸要因を無視するなど過度に単純化した仮定
•  観測されていない諸要因とは
–  生物的な要因(遺伝子、年齢や履歴)→個体差
–  非生物的な局所環境(局所的な栄養塩類量等)→場所差
–  原因不明のまま影響をうまくとりこむ必要がある
図にするとこうなる
自然  
個体差を  
無視  
錯誤  
無知  
傲�慢  過分散  
罠
じゃあどうする
7.3 一般化線形混合モデル
個体差として追加
個体間で独立した正規分布
平均は0
標準偏差はsとして任意に設定
切片にランダム効果を追加→ランダム切片モデル
傾きに追加すれば→ランダム傾きモデル
個体差で生存確率は変わる
生
存
確
率
葉の数
個体差がプラスの時
個体差がマイナスの時
線形予測子の構成要素
固定効果 ランダム効果
なにを固定効果として
なにをランダム効果と
するか?
ちなみにGLMMの色々な呼び名
•  分野によって呼び名が異なる
– 階層線形モデル(HLM)
– マルチレベルモデル
– ランダム効果モデル
– 成長曲線モデル
•  類書や資料を探すときはGLMM以外にも上
記の名前で検索するとよい
ランダム効果を入れるのは
わかったが
どうやって計算する
7.4 一般化線形混合モデルの最尤推定
•  個体差のパラメータを推定するのはナンセンス
–  100個体あれば個体差を100個推定することになる
•  個体差を積分して各個体の尤度を算出
•  各個体の尤度を個体数分掛け合わせて最尤推定する
•  以上の手順は今回のようなシンプルなモデルが限界
–  多くの積分を含む計算は実に面倒
–  本書ではその処方箋としてベイズを用意
図にするとこうなる
二項分布 正規分布
積分して
1個体分の
尤度
100個体分
掛け合わせて
対数化して
最大にする
パラメータを求める
怠惰  
諦念  
計算負荷高い
二項分布 正規分布
積分して
1個体分の
尤度
二項分布 正規分布
積分して
1個体分の
尤度
GLMMのパラメータを推定
> library(glmmML)
> glmmML(data=d, cbind(y, N-y)~x, family = binomial, cluster = id,
method="ghq")
Call: glmmML(formula = cbind(y, N - y) ~ x, family = binomial, data = d,
cluster = id, method = "ghq")
coef se(coef) z Pr(>|z|)
(Intercept) -4.1296 0.9055 -4.561 5.10e-06
x 0.9903 0.2141 4.625 3.75e-06
Scale parameter in mixing distribution: 2.494 gaussian
Std. Error: 0.3093
LR p-value for H_0: sigma = 0: 1.792e-56
Residual deviance: 264.5 on 97 degrees of freedom AIC: 270.5
うまくいっている
真のモデル
GLM(青)
葉の数
生
存
種
子
数
GLMM(赤)
GLMMはどんなときに
必要なのか
7.5 現実のデータ解析にはGLMMが必要
•  今回は過分散でチェックした
•  現実には厳密な実験計画を実施した場合
を除いて、擬似反復という状況になり
GLMMが必要になることが多い
反復と擬似反復
•  個体差等が見えてしまうかどうか
– みえない:反復
– みえる:擬似反復
•  言い換えればそのデータはネストされてい
る(入れ子)か
– ネストあり:擬似反復
•  実験計画とは反復にして個体差、場所差を
考えないで良いようにすること
– 実験計画法の三原則(局所管理化・反復・無作為化)
図にするとこうなる
個体に種子がネスト→個体差がみえる
壱 弐
じゃあこの場合は
学校に個人がネスト
↓
学校差がみえるが固定効果でも良いのでは?
モテ  
モテ  
モテ  
非モテ  
非モテ  
非モテ  
K大学 D大学
固定効果とランダム効果をどう区別するか
•  効果の大きさに興味あるんだろうか?
→Yes なら固定効果
•  その要因の水準ってのが「効果のばらつきの確率分布」
に由来するものだと考えるのは妥当だろうか?
→Yes ならランダム効果
•  要因の水準数が十分多くて分散を推定したいのか?
→No ならその要因は固定効果
•  下記URLに他にも区別する目安が9つ紹介されている
•  http://hosho.ees.hokudai.ac.jp/~kubo/ce/
RandomEffectsCrawley.html
7.6 いろいろな分布のGLMM
•  過分散で個体差をチェックしたが過分散
が定義できない分布の場合はどうするか
– 正規分布やガンマ分布
– 平均と分散が別個に定義される
•  過分散はあくまで一例としてとりあげたの
みであり、擬似反復が本質的に重要
図にするとこうなる
GGLLMMMM  
GGLLMM  
擬似反復の  
データ  
YYeess   NNoo
まとめ
•  擬似反復があるなら個体差を考慮
•  個体差を考慮した場合、GLMは一般化線形
混合モデル(GLMM)になる
•  GLMMは計算が面倒
最後に
参考にした情報(書籍)
•  医学統計のための線型混合モデル G.Verbeke
–  事例が多く解説も丁寧だがSAS
–  絶版
•  一般化線形モデル 粕谷英一
–  第6章に一般化線形混合モデルの解説あり。Rの関連
パッケージの詳しい説明があるので手を動かす時に
一読をおすすめする。
•  一般化線形モデル入門 Annette J.Dobson
–  第11章にクラスターデータおよび経時データへの対
応としてGLMMが紹介されている。数式で簡潔に表現
されておりわかりやすい。
参考にした情報(WEB)
•  Wolfeyes Bioinformatics
–  秀逸な混合分布のアニメーション
–  http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/
–  GLMMとGLMの比較をシミュレーションで
–  http://yagays.github.io/blog/2012/11/02/glm-mcmc-chp7/
•  MIZUMOTO LABLOG
–  GLMM(ここでは階層線型モデル)についてのわかりやすい資料
あり。また、関連資料がまとまっていてリンク集としても非常
に有用
–  http://mizumot.com/lablog/archives/179
データ解析のための勉強会第7章

Contenu connexe

Tendances

Tendances (20)

階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
媒介分析について
媒介分析について媒介分析について
媒介分析について
 
マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編
 
第4回DARM勉強会 (多母集団同時分析)
第4回DARM勉強会 (多母集団同時分析)第4回DARM勉強会 (多母集団同時分析)
第4回DARM勉強会 (多母集団同時分析)
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 

Plus de TokorosawaYoshio (10)

R45LT
R45LTR45LT
R45LT
 
JapanR2014
JapanR2014JapanR2014
JapanR2014
 
Tokyor37
Tokyor37Tokyor37
Tokyor37
 
Tokyor44
Tokyor44Tokyor44
Tokyor44
 
TokyoR42_around_chaining
TokyoR42_around_chainingTokyoR42_around_chaining
TokyoR42_around_chaining
 
Rから通知をとばす
Rから通知をとばすRから通知をとばす
Rから通知をとばす
 
2分でパッケージを作ってインストールする
2分でパッケージを作ってインストールする2分でパッケージを作ってインストールする
2分でパッケージを作ってインストールする
 
TokyoR40
TokyoR40TokyoR40
TokyoR40
 
Tokyor36
Tokyor36Tokyor36
Tokyor36
 
TokyoR#31 初心者セッション
TokyoR#31 初心者セッションTokyoR#31 初心者セッション
TokyoR#31 初心者セッション
 

データ解析のための勉強会第7章