Contenu connexe
Plus de Daisuke Ichikawa (9)
Tokyor23
- 9. こんな話がありました
サイバーエージェントを支える技術者たち
http://gihyo.jp/dev/serial/01/cyberagent/0031
- 17. その目次
1. データを理解するために統計モデルを作る
2. 確率分布と統計モデルの最尤推定
3. 一般化線形モデル (GLM)ーポアソン回帰ー
4. GLMのモデル選択ーAIC とモデルの予測の良さー
5. GLMの尤度比検定と検定の非対称性
6. GLMの応用範囲をひろげるーロジスティック回帰などー
7. 一般化線形混合モデル (GLMM)ー個体差のモデリングー
8. マルコフ連鎖モンテカルロ (MCMC) 法とベイズ統計モデル
9. GLM のベイズモデル化と事後分布の推定
10. 階層ベイズモデルーGLMM のベイズモデル化ー
11. 空間構造のある階層ベイズモデル
- 19. キタコレ
1. データを理解するために統計モデルを作る
2. 確率分布と統計モデルの最尤推定
3. 一般化線形モデル (GLM)ーポアソン回帰ー
4. GLMのモデル選択ーAIC とモデルの予測の良さー
5. GLMの尤度比検定と検定の非対称性
6. GLMの応用範囲をひろげるーロジスティック回帰などー
7. 一般化線形混合モデル (GLMM)ー個体差のモデリングー
8. マルコフ連鎖モンテカルロ (MCMC) 法とベイズ統計モデル
9. GLM のベイズモデル化と事後分布の推定
10. 階層ベイズモデルーGLMM のベイズモデル化ー
11. 空間構造のある階層ベイズモデル
- 24. GLMMの概要をつかむ
• 基本はGLM
– GLMについては後述
– 一般化線形モデル入門おすすめです
• GLMにおいて、2つの効果が混合してい
ると考える
– 固定効果+変量効果
– 普通のGLMは固定効果のみ
– 変量効果を加えてモデルの表現力を上げる
- 30. そんなデータに
450
400
350
Reaction
300
250
200
0 2 4 6 8
Days
- 32. でも本当はこんなデータ
450
Subject
308
309
400
310
330
331
332
350 333
334
Reaction
335
337
349
300
350
351
352
369
250 370
371
372
200
0 2 4 6 8
Days
- 34. 変量効果を加えて表現力アップ
450 450
400 400
350 350
Reaction
Reaction
300 300
250 250
200 200
0 2 4 6 8 0 2 4 6 8
Days Days
傾きと切片にそれぞれ変量効果を加える
- 35. 結局、変量効果とは
• 変量効果って
– 項目としては採れていない隠れた差(ただし
その差には無限水準の母集団が仮定される)
• 個人差
• 施設間差
– なお、何を変量効果として何を固定効果とす
るかには色々議論があるらしい
- 36. どうやって傾きと係数を求める
• 最尤法を使う
– 大体どの教科書にも載ってる
– でも求める傾き・係数が多いと無理
– 最尤法の説明は省きます
• だからMCMC+ベイズ推定する
– これも省きますごめんなさい
– 過去の勉強会資料をご覧ください
• ATNDにリンクがあります
– マルコフ連鎖モンテカルロ入門(@teramonagi)
– 近似ベイズ計算でカジュアルなベイズ推定
(@kos59125)
- 38. Rのパッケージを探して試す
• ググる
– 緑本著者のページへ
– GLMM + 日本語
• CRAN Task Viewで探す
– Bayesian
• R言語逆引きハンドブックで探す
– MCMC:P469∼
• Rパッケージガイドブックで探す
– MCMC:P156∼
- 42. とりあえずMCMCglmmに
• 候補としては
– MCMCglmmパッケージ
– lme4パッケージ
– R2WinBUGS (+WinBUGS)
• 緑本はWinBUGS
– BUGSコードを書く必要があるのでちょっと
めんどい
• MCMCglmmがお手軽っぽいので先ほ
どのデータを適用してみる
- 44. 結果(1つ目のモデル)
> summary(res1)
Iterations = 3001:12991
Thinning interval = 10
Sample size = 1000
DIC: 1906.268
R-structure: units
post.mean l-95% CI u-95% CI eff.samp
units 2301 1866 2759 1000
Location effects: Reaction Days
post.mean l-95% CI u-95% CI eff.samp pMCMC
(Intercept) 251.350 239.694 265.033 1000 <0.001 ***
Days 10.519 8.051 12.682 1000 <0.001 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
- 45. 結果(2つ目のモデル)
> summary(res2)
Iterations = 3001:12991
Thinning interval = 10
Sample size = 1000
DIC: 1743.6
G-structure: us(Days):Subject
post.mean l-95% CI u-95% CI eff.samp
Days:Days.Subject 60.01 24.85 104.5 783.2
R-structure: units
post.mean l-95% CI u-95% CI eff.samp
units 851.2 674.5 1038 1288
Location effects: Reaction Days
post.mean l-95% CI u-95% CI eff.samp pMCMC
(Intercept) 251.487 243.789 259.436 1000 <0.001 ***
Days 10.347 6.462 14.783 1000 <0.001 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
- 46. 色々確認する
• 結果指標
– 統計学の本と行ったり来たり
• サンプルのデータ構造
– 自分が持っているデータに適用する場合に参
考にする
– データ操作については、Rデータ自由自在や
R逆引きハンドブックがおすすめ
• パラメータ
– 最低限指定するべきパラメータの確認
- 49. TokyoRで発表する
• 統計の世界にはたくさん職人がいる
– たとえば重回帰職人
• 参考:重回帰職人の朝は早い(第2回Japan.R)
– ATNDの過去の勉強会資料からご覧ください
– 職人に聞くのが手っ取り早い
• ありがちな落とし穴とか
• 皆さんもなにか勉強したら主催の
@yokkunsに声をかけて発表するとい
いですよ
- 51. 仕事で本格的に使う
• 実は少し使ってみているけど、色々うまく
いってない
– うまくいってない原因が
• 自分の知識不足にあるのか
• 手法のミスマッチにあるのか
• パッケージのバグにあるのか
– 確認するために緑本をまた読んでいる
– また今度実例を交えてお悩み相談します
• 今後のご活躍にご期待ください