Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

一般化線形混合モデル入門の入門

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 93 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Publicité

Similaire à 一般化線形混合モデル入門の入門 (20)

Plus par Yu Tamura (20)

Publicité

Plus récents (20)

一般化線形混合モデル入門の入門

  1. 1. 一般化線形混合効果モデル 入門の入門 2014. 12. 6. Nagoya.R #12 名古屋大学大学院国際開発研究科 D1 田村祐
  2. 2. 内容に入る前に • この発表では,外国語教育研究のデータ分析を 例として扱います
  3. 3. 内容に入る前に • 近年のSLA研究は量的研究に偏りがち (Mizumoto, Urano, & Maeda, 2014) • 特に分散分析(ANOVA)とt 検定が多い(草薙, 水本&竹内, 2014) • 平均値に基づくパラメトリック検定に頼りがち (Plonsky, 2011; Plonsky & Gass, 2011)
  4. 4. データセットとRのスクリプト を借りる論文 Cunnings, I. (2012). An overview of mixed-effects statistical models for second language researchers. Second Language Research, 28, 369-382.
  5. 5. 仮想データ • 被験者 • 24人の非英語母語話者(大学生)※L1は共有 • 項目 • 英語における主語と動詞の一致(Subject-Verb Agreement) • 方法 • 容認度タスク(Acceptability Judgment Task) • 1(unacceptable)-10(acceptable)で評価 • 20ペアの文法文・非文法文(全40文) • ランダマイズした2種類のテストを作り20文(G10・UG10)に分ける • RQ:文法文と非文法文で容認度に違いがあるか
  6. 6. 以下のことを考える必要性 • 実験の結果に影響を与える要因を考慮できてい るか • 被験者のばらつき • 項目のばらつき • 刺激の文法性 • 熟達度 • 文長(語数)
  7. 7. これらを考慮した分析 を可能にするのが…
  8. 8. 線形混合モデル (混合効果モデル)
  9. 9. 線形混合モデル?混合 効果モデル?
  10. 10. 線形モデルの発展(久保,2012) 推定の計算方法 MCMCによる事後分布の推定 一般化線形混合モデル 最尤推定法 一般化線形モデル 線形モデル 階層ベイズモデル 最小二乗法 正規分布以外の 確率分布を扱いた い 個体差・場所差と いったランダム効 果をあつかいたい もっと自由 で現実的な 統計モデリ ングを!
  11. 11. 線形モデルの発展(久保,2012) 推定の計算方法 MCMCによる事後分布の推定 一般化線形混合モデル 最尤推定法 一般化線形モデル 線形モデル 階層ベイズモデル 最小二乗法 正規分布以外の 確率分布を扱いた い 個体差・場所差と いったランダム効 果をあつかいたい もっと自由 で現実的な 統計モデリ ングを!
  12. 12. 線形混合モデル (Linear-Mixed Effect Model)
  13. 13. LME と呼ばれることも多い
  14. 14. なぜ混合効果モデルなのか? • L2の指導法効果研究を考えてみる 指導効果→混合効果モデルでは固定効果(fixed effect) 参加者→ランダム効果(参加者はL2学習者の中からラ ンダムにサンプリングされる) • もし追試を行うとした場合,指導法は固定で,参加 者はまた新しくランダムにサンプリングされる
  15. 15. なぜ混合効果モデルなのか? • 固定効果として独立変数を複数設定可能 • カテゴリカルデータ(e.g., NS vs NNS, 高熟達度 vs 低熟 達度) • 連続データ(e.g., 年齢,熟達度としてのテストスコア) • あるいは両方とも • 従属変数 • 連続データ(e.g., 年齢,テストスコア,反応時間) • カテゴリカルデータ(文法性判断, 容認性判断 etc.)
  16. 16. なぜ混合効果モデルなのか? • 現行の手法(線形モデル)で前述のデータを扱 えないわけではないが,フレームワークが違う • 線形モデルでは当てはまりの悪いデータ(e.g., 学習者の縦断的発達データ)を扱うことも可能 • さらに,変量効果として様々な変数をモデルに 組み込める
  17. 17. さきほどの指導法効果研究 の例をもう一度考えてみる
  18. 18. なぜ混合効果モデルなのか? • 参加者の学生 • 同じ学校内でもクラスが違う • そもそも違う学校 クラスA 学校A 学校B クラスC クラスB クラスA クラスC クラスB
  19. 19. なぜ混合効果モデルなのか? • 参加者の学生 • クラス内(学校内)で一定の傾向 • クラス間(学校間)ではその傾向がなくなる 可能性 学校A クラスA クラスC クラスB クラスA クラスB クラスC 学校B
  20. 20. なぜ混合効果モデルなのか? • 参加者の学生 • 同じ集団からサンプリングされた学生が違う クラスにいる 母集団A 母集団B クラスA 生徒5 クラスB クラスC クラスD クラスE クラスG 生徒2 生徒1 生徒3 生徒4 生徒6 生徒a 生徒b 生徒c 生徒d 生徒e
  21. 21. なぜ混合効果モデルなのか? • 混合効果モデルはどちらの構造の変量効果も扱 うことができる。
  22. 22. さらに
  23. 23. なぜ混合効果モデルなのか? • テスト項目(刺激)のバラ付きにも適応できる。 • 刺激文は無限に生成可能(原理的には) • ただし実験で用いられるのはそのうちの一部 • 言語も実は変量効果 • “language-as-fixed-effect fallacy”(Clark, 1973)
  24. 24. なぜ混合効果モデルなのか? • “language-as-fixed-effect fallacy”(Clark, 1973) →項目分析をやる理由はこれ ※ただし,被験者分析と項目分析は1つのモデルに 最終的には統合されるべき • 多くの研究者は,両方の分析で有意差でたらよ しとしてしまっている
  25. 25. なぜ混合効果モデルなのか? • 別の問題点 • 有意差が片方にしか出なかった場合は結果を どのように解釈するか? • 論文などで正規性が満たされているかなどが 報告されることはまれ(Plonsky, 2011; Plosnky & Gass, 2011)
  26. 26. なぜ混合効果モデルなのか? • 混合効果モデルなら… • 被験者・項目を同時に変量効果として扱う分析 が可能 • 正規分布以外の確率分布を用いることも可能 • 上限のないカウントデータ→ポアソン分布 • 上限のあるカウントデータ→二項分布
  27. 27. なぜ混合効果モデルなのか? • 混合効果モデルなら… • 球面性や等分散性の逸脱に対しても頑健 • 欠損値のあるデータにも対応できる(欠損値 もランダム効果とみなす)
  28. 28. 実際にLMEをやってみる
  29. 29. パッケージをDL 1. Rを起動して以下のコマンドを打ち込む >install.packages(“lme4”) 2. ミラーサイトを選択(Japanのどこか)
  30. 30. 今回使う関数 • lmer()という関数を使う • これを使って分析をする
  31. 31. USBにあるファイルを 使います
  32. 32. やり方 • USBにあるdataファイルをRのコンソールにD&D >ratings と打って中身を確認
  33. 33. こんな感じになってるはず
  34. 34. やり方 基本的な入力法は以下のとおり(x=従属変数, y=独 立変数(固定効果), z=変量効果, dataに使うデータ セットをいれる) ()内にcrossed random effectsをいれる >lmer(x ~ y + z, data=ratings) >model1 <- lmer(zrating ~ condition + (1|subject) + (1|item),data=ratings) 切片設定する変数 conditionでzratingに違いがあるかをみたい
  35. 35. やり方 • summary関数で結果をみる >summary(model1)
  36. 36. やり方 • モデルフィッティングの係数がlmer()関数では REML(restricted maximum likelihood)法(制 限付き最尤推定法)の値しか出てこないので, 他の係数を確認したい場合はAIC()関数等を使う • AIC(Akaike’s information criterion) 関数で予測の 良さをみる
  37. 37. やり方 • AIC(Akaike’s information criterion) • 予測の良さを表す平均対数尤度にもとづく • 小さい方が良い
  38. 38. やり方 • 基本的には,このようにしてモデルを組み,考 えられる複数のモデルを比較して,anova()関数 を使ってどのモデルが一番適合度が高いかを比 較していく • モデルを複雑にすればするほど説明力があがる わけではないということに注意
  39. 39. やり方 >model1 <- lmer(zrating ~ condition + (1|subject) + (1|item),data=ratings) • 上記のモデルによって,参加者と項目をランダム 切片として組み込むことができた →参加者個人の傾向を考慮できる
  40. 40. 0.0 0.2 0.4 0.6 0.8 1.0 傾きは同じで切片が違う ランダム切片 0.0 0.2 0.4 0.6 0.8 1.0
  41. 41. 0.0 0.2 0.4 0.6 0.8 1.0 ランダム傾き 切片は同じで傾きが違う 0.0 0.2 0.4 0.6 0.8 1.0
  42. 42. やり方 • しかし参加者や項目によって反応が異なるかもし れない? • 正文と非文に対する対応の差やばらつきの程度が あると想定できる →ランダム傾きも考慮する必要性 被験者の変動を切片とconditionの傾きにいれる >model2 <- lmer(zrating ~ condition + (1+condition| subject) + (1|item),data=ratings)
  43. 43. 0.0 0.2 0.4 0.6 0.8 1.0 ランダム傾き&ランダム切片 切片も傾きも違う 0.0 0.2 0.4 0.6 0.8 1.0
  44. 44. やり方 • この実験ではひとつの文が正文と非文のそれぞれで使 われている • 文法性(condition)は繰り返して測定されている • 項目のランダム傾きもモデルに組み込む >model3 <- lmer(zrating ~ condition + (1+condition| subject) + (1+condition|item),data=ratings)
  45. 45. やり方 • 3つのモデルを比較するために,anova()関数を 使って比較。適合度が有意に高いモデルを選ぶ >anova(model1, model2, model3)
  46. 46. model3の適合度が高い
  47. 47. しかし
  48. 48. 実はまだこれで終わり ではない
  49. 49. 学習者の熟達度は?
  50. 50. 被験者要因の項目への影響 • 一般的な統計的仮説検定では,これらの要因を 共変量に設定して,共分散分析(ANCOVA)を用 いることがある • しかし,これでは項目への影響の異なり具合が 考慮されていない(年齢や熟達度の影響がある 項目とない項目がある可能性)
  51. 51. 文の長さは?
  52. 52. 項目要因の被験者への影響 • 項目の平均得点に対して,文の長さを共変量に して共分散分析をすることがある • この場合は被験者要因が考慮されていない(文 長の影響を受ける被験者と受けない被験者がい る可能性)
  53. 53. つづき • これらの問題を解決するには,年齢や文長のよ うな連続変数を0/1のカテゴリカルデータにして 組み込むことになる(年齢:低・高,文長:短・ 長) →LMEならこれらのデータも(連続であれカテゴ リカルであれ)モデルに組み込むことが可能
  54. 54. つづき • 連続データをモデルに組み込むときは,中心化してお くとよい →共線性(2つ以上の変数がお互い強く連動するときに 発生する)の問題を回避できる ratings$clength <- ratings$length - mean(ratings $length) ratings$cprof <- ratings$proficiency - mean(ratings $proficiency)
  55. 55. つづき • まず,文長によって容認度が変わるかを考慮 • model4に,文長の固定効果をいれる >model4 <- lmer(zrating ~ condition + clength + (1+condition|subject) + (1+condition|item),data=ratings)
  56. 56. つづき • 熟達度によって容認度が変わるかを考慮 • model5に,熟達度の固定効果をいれる >model5 <- lmer(zrating ~ condition + clength + cprof + (1+condition|subject) + (1+condition|item),data=ratings)
  57. 57. ←固定効果にいれた要因同士の相関はない
  58. 58. つづき • 文長の固定効果は文法性(condition)と交互作用があるか も? • 例:正文だと文長の影響があって,非文だと文長の影響が ない コロンは交互作用 >model6 <- lmer(zrating ~ condition + clength + cprof + condition:clength + (1+condition|subject) + (1+condition| item),data=ratings)
  59. 59. つづき • 熟達度の固定効果は文法性(condition)と交互作用がある かも? • 例:正文だと熟達度の影響があって,非文だと熟達度の影 響がない コロンは交互作用 >model7 <- lmer(zrating ~ condition + clength + condition:clength + condition:cprof + (1+condition|subject) + (1+condition| item),data=ratings)
  60. 60. つづき • もしかすると,文長と熟達度も交互作用あるかも? • 例:熟達度が高いと文長の影響がなくて,熟達度が 低いと文長の影響がある コロンは交互作用 >model8 <- lmer(zrating ~ condition + clength + condition:clength + condition:cprof + clength:cprof + (1+condition|subject) + (1+condition|item),data=ratings)
  61. 61. つづき • 考えられる3つの要因のすべての固定効果と交互 作用をいれるときにはアスタリスク(*)を使う アスタリスクは考えられるすべての要因の固定効果と交互作用 >model9 <- lmer(zrating ~ condition * clength * cprof + (1+condition|subject) + (1+condition|item),data=ratings) ※condition*clengthは,condition + clength +condition:clengthと同じ
  62. 62. つづき • これまで作ってきたmodel3からmodel9までで, どれが一番モデルのフィッティングを向上させ たかをanova()関数で検証 >anova (model3, model4, model5, model6, model7, model8, model9)
  63. 63. まだまだ終わりじゃない
  64. 64. つづき • 文長を被験者のランダム傾きにいれる • ある学習者だけが文長の影響を受けていて他の学習者 は受けていないという個人差を考慮 • 項目のランダム傾きにはいれない • 同じ文の文長は項目ごとで異なるが,項目内では同一
  65. 65. つづき • 文長を被験者のランダム傾きにいれる • ある学習者だけが文長の影響を受けていて他の学習者は 受けていないという個人差を考慮 • 項目のランダム傾きにはいれない • 同じ文の文長は項目ごとで異なるが,項目内では同一 >model10 <- lmer(zrating ~ condition + clength + (1+condition + clength|subject) + (1 + condition|item), data=ratings)
  66. 66. つづき • model4とmodel10をanova()関数で比較 >anova(model4, model10)
  67. 67. model4が最強!
  68. 68. まだ終わりじゃない
  69. 69. つづき • ようやく最適なモデルが決定できた • lme4パッケージのlmer()関数では統計量は計算する が,p値を算出してくれない • lmerTestパッケージの使用(おすすめ) • t値からp値を計算(参考までに)
  70. 70. パッケージをDL 1. Rを起動して以下のコマンドを打ち込む >install.packages(“lmerTest”) 2. ミラーサイトを選択(Japanのどこか) 3. lme4パッケージと同様にlmer()関数を使うと, Welch-Satterthwaiteの式を用いて近似自由度と p値を計算してくれる
  71. 71. つづき • ようやく最適なモデルが決定できた • 結果の解釈 • 非文は正文よりも有意に容認度が高い • 長い文は短い文よりも容認度が低い
  72. 72. 実は
  73. 73. 実は • lmerTestパッケージのstep()関数を使えばもっと楽! • step()関数はモデルフィッティングを向上させない要因 を排除してくれる関数 • つまり,一番複雑なモデルを組んでstep(model)のよう にすれば,最適なモデルを出してくれる
  74. 74. つづき • ようやく最適なモデルが決定できた • lme4パッケージのlmer()関数では統計量は計算する が,p値を算出してくれない • lmerTestパッケージの使用(おすすめ) • t値からp値を計算(参考までに)
  75. 75. t値からp値を計算 • t分布の分布関数であるpt()関数を使う • 2 * (1 - pt(abs(t値), データ数 - 固定効果の数)) • 文法性の影響 > 2 * (1 - pt(abs(-4.980), 480 - 3)) • 文長の影響 > 2 * (1 - pt(abs(-2.151), 480 - 3))
  76. 76. t値からp値を計算 • t分布の分布関数であるpt()関数を使う • 2 * (1 - pt(abs(t値), データ数 - 固定効果の数)) • ただしこの方法だと,データ数が少ないと有意差がで やすくなるので注意(Type Ⅰ errorの危険性)
  77. 77. 最後に • 今回の方法はあくまで一例 • さらに「入門の入門」 • 本当はもっと奥が深いです • 最尤法による推定は限界がある • ベイズ推定(MCMC)が必要になってくる
  78. 78. もっと詳しく知りたい人は
  79. 79. 謝辞 Cunnings(2012)のサンプルデータを探せど探せど見つか らずに途方にくれていたところ,関西大学の水本篤先生 が「私も見つからずに著者に問い合わせて送ってもらい ました」と声をかけてくださり,なんとかデータを使う ことができました。この場を借りてお礼を申し上げます。
  80. 80. 参考文献 Baayen, R. H. (2008). Analyzing linguistic data. A practical introduction to statistics using R. Baayen H,, Davidson D,, & Bates, D. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59, 390–412. Clark, H. (1973). The language-as-fixed-effect fallacy: A critique of language statistics in psychology research. Journal of Verbal Learning and Verbal Behavior 12: 335–59. Cunnings, I. (2012). An overview of mixed-effects statistical models for second language researchers. Second Language Research, 28, 369-382. Jaeger, F. (2008). Categorical data analysis: Away from ANOVAs (transformation or not) and towards logit mixed models. Journal of Memory and Language 59: 434–46. 草薙邦広・水本篤・竹内理.(2014) 「日本の外国語教育研究における効果量・検定力・標本サイズ: Language Education & Technology掲載論 文を対象にした事例分析」第54回外国語教育メディア学会全国研究大会, 福岡大学 久保拓弥 (2012) データ解析のための統計モデリング入門: 一般化線形モデル・階層ベイズモデル・MCMC. 岩波書店. Mizumoto, A., Urano, K., & Maeda, H. (2014). A systematic review of published articles in ARELE 1-24: Focusing on their themes, methods, and outcomes. Annual Review of English Language Education, 25, 33-48. Plonsky, L. (2011) Study quality in SLA: A cumulative and developmental assessment of designs, analyses, reporting practices, and outcomes in quantitative L2 research. Unpublished doctoral thesis, Michigan State University, MI, USA. Plonsky, L., $ Gass, S. (2011). Quantitative research methods, study quality, and outcomes: The case of interaction research. Language Learning, 61, 325–66. Quene, H., & van den Bergh, H. (2008). Examples of mixed-effects modelling with crossed random effects and with binomial data. Journal of Memory and Language, 59, 413–25. 清水裕士 (2014) 個人と集団のマルチレベル分析. ナカニシヤ出版.
  81. 81. 一般化線形混合 モデル入門の入門 contact info 田村 祐 名古屋大学大学院国際開発研究科 yutamura@nagoya-u.jp http://tamurayu.wordpress.com/ • lmer(従属変数 ~ 固 定効果 + (変量効 果), data = dat) • 基本はモデルを組ん でanova() • AICでモデルを評価 • lmerTestパッケージ のstep()関数が便 利!

×