A Patent Landscape of Distribution Service Innovation(IAMOT2010)
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"
1. Chapter 13
Goals, Power and Sample Size
分析目的
検出力
標本サイズ
Hajime SASAKI
Policy Alternatives Research Institute.
The University of Tokyo.
“Doing Bayesian Data Analysis:
A Tutorial with R and BUGS.”
2013/08/31
2. 中身
13.1 The Will to Power(なんで検出力の話をするのか)
13.1.1 Goals and Obstacles(分析における目的と障害)
13.1.2 Power(検出力とは)
13.1.3 Sample Size(サンプルサイズとは)
13.1.4 Other Expressions of Goals(分析目的いろいろ)
13.2 Sample Size for a Single Coin(ワンコインで買えるサンプルサイズ)
13.2.1 When the Goal Is to Exclude a Null Value(帰無値を超えて)
13.2.2 When the Goal Is Precision(精度が欲しい)
13.3 Sample Size for Multiple Mints(造幣局から愛をこめて)
13.4 Power: Prospective, Retrospective, and Replication(検出力分析もいろいろ)
13.4.1 Power Analysis Requires Verisimilitude of Simulated Data
(そのデータ、現実を写しているの?)
13.5 The Importance of Planning(調査設計大事超大事)
13.6 R Code
13.6.1 Sample Size for a Single Coin
13.6.2 Power and Sample Size for Multiple Mints
13.7 Exercises(運動)
3. はじめに
! 本資料は, “Doing Bayesian Data Analysis: A Tutorial
with R and BUGS”13章に書かれていないこともゆ
るめに記述してます。
! 原著では明示的に記述してないことを書いてい
るページには右上に「補足ページ」と記してま
す。
補足ページ
4. 13.1 The will to the power
! 何らかの目的のために分析データ収集をするにしても、デー
タ中にノイズが存在する以上、期待する結果が達成されるの
はあくまで確率的なものである。
! ここでいう目的(Goals)とは。:帰無仮説を棄却したい!とか、
精度を求めたい!とか。
! 検出力:その命題が真である場合に、本当に真であると検出
する確率。
! 達成の確率が低い分析目的に無駄な資源を費やしてはならな
い。研究・実験・分析において、高い検出力を求めるべき。
! この章では検出力の定義と計算のしかたについて議論しよう。
13. 13.2 Sample size for a single coin
! 13.2.1 When the Goal is to Exclude a Null value
2000回の試行に基づき、0.65の確率で表が出るように歪んでい
ると信じられているコイン。
このコインの表が出る確率分布の95%HDIがθ=0.5の外に位置
することを示すために必要となるサンプルサイズ。
95%HDI
Nullvalue(0.5)
Biased Coin(θ=0.65)
Flip N times
14. 歪んだコインを投げ続けてみる
歪んだコインを投げ続けて表が出る確率分布。
• コインの歪みっぷり:ベータ分布(連続確率分布)
• 表が出るっぷり:二項分布(離散確率分布)
のたたみ込み。
p(z | N) = d! p(z | N,!)p(!)
0
1
!
= d!binomial(z | N,!)Beta(! | a,b)
0
1
!
= d!
N
z
"
#
$$
%
&
''!z
(1(!)(N(z)
!(a(1)
/ B(a,b)
0
1
!
=
N
z
"
#
$$
%
&
''B(z + a, N ( z + b) / B(a,b)
→ベータ二項分布(BBD: Beta-Binomial Distribution)
別名:負の超幾何分布(Negative Hypergeometric Distribution)
別名:ポリア=エッゲンベルガー分布(Polya‐Eggenberger Distribution)
15. N
z
!
"
##
$
%
&&B(z + a, N ' z + b) / B(a,b)
(minNforHDIpower.R)
Logarithmic form to prevent underflow errors.
要求検出力(0.8)を超えるまで
サンプリングサイズを増やし続ける。
• HDImaxwid以下にするためのサンプルサイ
ズ
• 95%HDIがnullvalueを超えるためのサンプ
ルサイズ
genPriorN: N
genPriorA: a
genPriorB: b
要求検出力(0.8)を超えたら
サンプルサイズを返して終わり。
さっきの式
21. 13.4 Power: Prospective, Retrospective and Replication
Prospective (a apiori) power analysis:
先行研究(ただし全く同じではない)を元にデータ分布の仮説をえる。
Retrospective power analysis:
実際に同じ条件で取得しているデータを元にパラメータをセットする。既に事後分布を
持っていることになる。fil-con実験はこれにあたる。
Replication power:
繰り返し実験をした際に、どのくらいの確率で目的を達成できるかを知りたい。
Retrospective power analysisと同様に、実際に同じデータを元に事後分布からデータを得る。
ただし、事前分布も同様にに元のデータから得る。
22. 13.4.1Power Analysis Requires Verisimilitude of
Simulated Data
“検出力分析は、生成データが実データを
模擬していることが前提”
13.5 The Importance of Planning
“結構みんなサンプルサイズ設計とか軽視するけど、それ良くないよ。”
“データ取得した後に議論しても意味ないけど”
“事前にやっておけば無駄なく実験・分析を進められるし。”
“提案書を書くときとかも大事だよ。”