SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
NagoyaStat #5
ご挨拶と前回の復習
@ito_yan
E-mail: 1mail2itoh3 [at] gmail.com
2017.04.07
NagoyaStat #5
今回の内容
• ご挨拶と前回の復習
• 参加者による自己紹介
• 「データ解析のための統計モデリング入門」
• 第9章 tmkz.it 様
• 第10章 nishioka0902 様
2
主催者について
• TwitterID: @ito_yan
• ITインフラ屋さん
• 仮想サーバ(構築、運用)
• Javaアプリケーション開発
• 最近はドメイン移行に伴うメール移行とか
• 小規模ネットワーク構築
3
勉強会で取り上げる書籍について
• 「データ解析のための統計モデリング入門」
• 通称:緑本
• 農学系のデータを扱っているが、農学系以外の
分野でも適用可能なことを扱っている
4
第7章の復習
• 第3章や第6章でみた回帰は、現実のデータモデ
リングへの適用が難しい
• カウントデータのばらつきがポアソン分布や二項分
布「だけ」ではうまく説明できないことが多い
• 説明変数が同じなら平均も同じになるというGLMの
仮定は、生物データには当てはまらないのが普通
• 第7章では測定できない個体差(原因不明の差
異)を組み込んだGLMであるGLMMが登場した
5
問題設定
• 植物の各個体から8個の種子をとってきて、いくつ
生存しているかを調べる
• 生存種子数が葉数と共に増大するかを調べたい
• 葉数は2~6とし、各葉数で20個体を調査する
6
何となく葉数が増えると、
生存している種子数は増
えているように見えるが…
一般化線形混合モデル(GLMM)
• 通常のロジスティック回帰はうまくいかない
• 推定すると、真の傾きに近い結果が得られない
• そもそもデータは二項分布に従っていない
• X=4の箇所は特にその傾向が強い
• 観測できない個体差や場所差の影響を組み込ん
だ統計モデリングが必要となる
• 生物的な要因(遺伝子、経験の相違)
• 非生物的な要因(栄養・水・光など環境の違い)
• 原因不明の個体差や場所差の効果をGLMに組
み込んだ統計モデルをGLMMと呼んでいる
7
GLMMのモデル
• 3項目に原因不明の効果をいれておく
• 正規分布を選ぶ根拠はない
• そもそも個体差は観測不可なので分布も不明
• 統計モデリングに便利という程度で選ばれている
• 単純化のため、個体差は相互に独立とする
• 最初の2項は固定効果、最後の項はランダム効
果、それらを合わせると混合モデルと呼ばれる
8
sは集団内のばらつきを表す
GLMMの最尤推定
• 個体差をすべて推定するのは無理がある
• 各個体の尤度は次式で与えられる
• 個体差を標準偏差に置き換えるのがキモ
• 各個体の尤度は3つのパラメータで書ける
• 全体の尤度は で与えられ
るので、ここからパラメータを推定することになる
→RのGLMM関数を用いる
9
GLMMの実行コード
• 教科書のコードそのままでは動かないので注意
10
推定結果
• 赤は真値、青は推定値をもとに描いた曲線
11
GLMMが必要な状況とは?
• 擬似反復が含まれているかで決まる
• 1個体から複数データをとることで、個体差の推定
ができるため、モデルの中で個体差を組み込む必
要が出てくる
• 個体差を考えないと過分散のようなことになる
• 逆に1個体に1つしかデータが得られない場合、
個体差の推定はやりようがない
• この場合は個体差を考えないGLMで推定する
12
第8章
• 考慮しなければならない誤差の原因(ランダム効
果)が増える
• ランダム効果の発生源の数だけ多重積分が発生
するため、計算ができなくなるという問題が発生
• MCMC(マルコフ連鎖モンテカルロ法)により、パ
ラメータの分布を得る
• 点推定ではなく、分布の形で得る
13
第8章の例題
• 第6章6.2節の例題(上限のあるカウントデータ)と
同じように20個体の植物から種子8個を得て、そ
の生死を調べる
• 各植物は均質で、生存数は二項分布に従うとす
ると、ある個体iの種子数が である確率は
• 尤度は
あとはLの対数をとってをqで微分してやればよく、
最尤推定量は種子数の平均で与えられる
14
ふらふらした最尤推定
• では、(第7章の積分が複雑になる場合のように)
最尤推定で解析的にパラメータが求まらないケー
スはどう対応するか?
• qを離散化(qは0~1で0.01刻み)
• ある値からスタートし
• ランダムに隣接するqを選び
• 対数尤度が高ければそちらに移動する
• すると、例題においてはqの値の最尤推定値に向
かって移動していく
15
メトロポリス法
• ランダムに隣接するqを選んで尤度が小さくなる
場合でも、確率 でそちらの方
に移動させる
• ふらふらした最尤推定の拡張
• メトロポリス法は直前のステップのみで新しい状
態を作り出し(マルコフ連鎖)、また隣接するqの
選択にランダム性がある(モンテカルロ法)ので、
MCMCと呼ばれるアルゴリズムの一種である
16
定常分布
• メトロポリス法でqが変化すると、qの値で作るヒス
トグラムがある確率分布に近づいていき、その分
布は定常分布と呼ばれる
• 例題のqは初期値によらず定常分布に近づく
• 詳細釣り合いの条件を満たしているため
• qの値の最初に得られたサンプルは初期値に依存
したものなので、定常分布には含めない
• 良いMCMCアルゴリズムは1ステップ間でサンプ
ルされた値の相関が低いアルゴリズムである
• 直前の値を引きずらず、定常分布が早く作れる
17
最尤推定とベイズ統計の違い
• 最尤推定は頻度主義のやりかたであり、パラメー
タはある定数であるという考え方である
• ベイズ統計は推定したいパラメータを確率分布で
表現するため、定常分布(MCMC)との親和性が
高い
18
ベイズ統計モデル
• ベイズの定理を変形していく
• 事後分布は尤度と事前分布の積に比例
• パラメータは分布の形で推定されるので、最尤推
定法のように1つの値では決まらない
• 事前分布が定数なら単に尤度に比例する
19
分母はqに依存しない

Contenu connexe

Tendances

Bi&データ可視化ツール@tokyowebmining35
Bi&データ可視化ツール@tokyowebmining35Bi&データ可視化ツール@tokyowebmining35
Bi&データ可視化ツール@tokyowebmining35
智明 高松
 

Tendances (15)

このIRのグラフがすごい!上場企業2018
このIRのグラフがすごい!上場企業2018このIRのグラフがすごい!上場企業2018
このIRのグラフがすごい!上場企業2018
 
このIRのグラフがすごい!上場企業2019
このIRのグラフがすごい!上場企業2019このIRのグラフがすごい!上場企業2019
このIRのグラフがすごい!上場企業2019
 
このIRのグラフがすごい!上場企業2016
このIRのグラフがすごい!上場企業2016このIRのグラフがすごい!上場企業2016
このIRのグラフがすごい!上場企業2016
 
Rでノンパラメトリック法 1
Rでノンパラメトリック法 1Rでノンパラメトリック法 1
Rでノンパラメトリック法 1
 
このIRのグラフがすごい!上場企業2015
このIRのグラフがすごい!上場企業2015このIRのグラフがすごい!上場企業2015
このIRのグラフがすごい!上場企業2015
 
コイン投げの分析を一捻り (Japan.R 2013 LT)
コイン投げの分析を一捻り (Japan.R 2013 LT)コイン投げの分析を一捻り (Japan.R 2013 LT)
コイン投げの分析を一捻り (Japan.R 2013 LT)
 
Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎
 
35thwebmining_lt
35thwebmining_lt35thwebmining_lt
35thwebmining_lt
 
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
 
相互運用可能な知的活動測定システムの研究
相互運用可能な知的活動測定システムの研究相互運用可能な知的活動測定システムの研究
相互運用可能な知的活動測定システムの研究
 
Bi&データ可視化ツール@tokyowebmining35
Bi&データ可視化ツール@tokyowebmining35Bi&データ可視化ツール@tokyowebmining35
Bi&データ可視化ツール@tokyowebmining35
 
Kandai R 入門者講習
Kandai R 入門者講習Kandai R 入門者講習
Kandai R 入門者講習
 
Kandai.R #1 公開用
Kandai.R #1 公開用Kandai.R #1 公開用
Kandai.R #1 公開用
 
心理統計の課題をRmdで作る
心理統計の課題をRmdで作る心理統計の課題をRmdで作る
心理統計の課題をRmdで作る
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 

Similaire à NagoyaStat #5 ご挨拶と前回の復習

Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Keiku322
 

Similaire à NagoyaStat #5 ご挨拶と前回の復習 (20)

Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
データ基盤に関わる問い合わせ対応を仕組みで解決する
データ基盤に関わる問い合わせ対応を仕組みで解決するデータ基盤に関わる問い合わせ対応を仕組みで解決する
データ基盤に関わる問い合わせ対応を仕組みで解決する
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションいじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
LT データ可視化とd3.js js_cafe_20130908_otanet
LT データ可視化とd3.js js_cafe_20130908_otanetLT データ可視化とd3.js js_cafe_20130908_otanet
LT データ可視化とd3.js js_cafe_20130908_otanet
 
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
 
220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集
 
マイクロアドのデータ基盤について アドテクを支える基盤〜10Tバイト/日のビッグデータを処理する〜
マイクロアドのデータ基盤について アドテクを支える基盤〜10Tバイト/日のビッグデータを処理する〜マイクロアドのデータ基盤について アドテクを支える基盤〜10Tバイト/日のビッグデータを処理する〜
マイクロアドのデータ基盤について アドテクを支える基盤〜10Tバイト/日のビッグデータを処理する〜
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
 
探しやすさを支えるメタデータ 基本のキ
探しやすさを支えるメタデータ 基本のキ探しやすさを支えるメタデータ 基本のキ
探しやすさを支えるメタデータ 基本のキ
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
20190723 mlp lt_bayes_pub
20190723 mlp lt_bayes_pub20190723 mlp lt_bayes_pub
20190723 mlp lt_bayes_pub
 
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
 
SpringOne Platform 2018 全体報告
SpringOne Platform 2018 全体報告SpringOne Platform 2018 全体報告
SpringOne Platform 2018 全体報告
 
SpringOne Platform 2018 全体報告
SpringOne Platform 2018 全体報告SpringOne Platform 2018 全体報告
SpringOne Platform 2018 全体報告
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Ims@sparqlではじめるr markdownとgitbookによるレポート生成Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
 
東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05
 

Plus de itoyan110

Plus de itoyan110 (8)

このIRのグラフがすごい!上場企業2023
このIRのグラフがすごい!上場企業2023このIRのグラフがすごい!上場企業2023
このIRのグラフがすごい!上場企業2023
 
このIRのグラフがすごい!上場企業2020
このIRのグラフがすごい!上場企業2020このIRのグラフがすごい!上場企業2020
このIRのグラフがすごい!上場企業2020
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
2018年6月期 統計検定2級&準1級 対策スライド
2018年6月期 統計検定2級&準1級 対策スライド2018年6月期 統計検定2級&準1級 対策スライド
2018年6月期 統計検定2級&準1級 対策スライド
 
レッツノートを業務用途にカスタマイズする
レッツノートを業務用途にカスタマイズするレッツノートを業務用途にカスタマイズする
レッツノートを業務用途にカスタマイズする
 
Rの拡張を書く (R 2.15.2)
Rの拡張を書く (R 2.15.2)Rの拡張を書く (R 2.15.2)
Rの拡張を書く (R 2.15.2)
 
Rで実験計画法 後編
Rで実験計画法 後編Rで実験計画法 後編
Rで実験計画法 後編
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
 

NagoyaStat #5 ご挨拶と前回の復習