Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

Chapter 13
Goals, Power and Sample Size
分析目的
検出力
標本サイズ

Hajime SASAKI
Policy Alternatives Research Institute.
The University of Tokyo.
“Doing Bayesian Data Analysis:
A Tutorial with R and BUGS.”
2013/08/31

中身

13.1 The Will to Power（なんで検出力の話をするのか）
13.1.1 Goals and Obstacles（分析における目的と障害）
13.1.2 Power（検出力とは）
13.1.3 Sample Size（サンプルサイズとは）
13.1.4 Other Expressions of Goals（分析目的いろいろ）
13.2 Sample Size for a Single Coin（ワンコインで買えるサンプルサイズ）
13.2.1 When the Goal Is to Exclude a Null Value（帰無値を超えて）
13.2.2 When the Goal Is Precision（精度が欲しい）
13.3 Sample Size for Multiple Mints（造幣局から愛をこめて）
13.4 Power: Prospective, Retrospective, and Replication(検出力分析もいろいろ)
13.4.1 Power Analysis Requires Verisimilitude of Simulated Data
(そのデータ、現実を写しているの？)
13.5 The Importance of Planning（調査設計大事超大事）
13.6 R Code
13.6.1 Sample Size for a Single Coin
13.6.2 Power and Sample Size for Multiple Mints
13.7 Exercises(運動)

はじめに

!   本資料は, “Doing Bayesian Data Analysis: A Tutorial
with R and BUGS”13章に書かれていないこともゆ
るめに記述してます。
!   原著では明示的に記述してないことを書いてい
るページには右上に「補足ページ」と記してま
す。
補足ページ

13.1 The will to the power

!   何らかの目的のために分析データ収集をするにしても、デー
タ中にノイズが存在する以上、期待する結果が達成されるの
はあくまで確率的なものである。
!   ここでいう目的(Goals)とは。：帰無仮説を棄却したい！とか、
精度を求めたい！とか。
!   検出力：その命題が真である場合に、本当に真であると検出
する確率。
!   達成の確率が低い分析目的に無駄な資源を費やしてはならな
い。研究・実験・分析において、高い検出力を求めるべき。
!   この章では検出力の定義と計算のしかたについて議論しよう。

13.1.1 Goals and Obstacle

!   分析目的(Goals)
!   「特定のパラメータが帰無値を超えることを示し
たい」
!   95%HDIが帰無値以上に位置するもしくは、設定し
たROPE*以上に位置することを示す。。(*ROPE(Region Of
Practical Equivalence):コインがフェアであることを期待するには表が出る確率は0.5
であることを望むんだけど、それは0.49でも0.51も実質問題ないよね？その幅を
ROPEとして設定する。)
!   「一定以上の精度が欲しい」
!   95%HDIの幅が特定の幅を有することを示す。
!   障害(Obstacle)
!   どんなに精密に作られたコインでも表の出る確率
が常に正確に50%になるとは言い切れない。どん
なに歪んだコインでも、場合によっては10回投げ
て5回表が出ることだってあるでしょ。
!   プラシーボ薬を投与して治療されることもあるだ
ろうし、実際に効く薬を投与しても、試験によっ
ては未処置群と大きな差は出ないかもしれないで
しょ。
!   そういうことなので、検出力(Power)について考えま
しょう。
95%HDI

nullvalue

ROPE

95%HDI＞0.2

おさらい：2種類の過誤

n  第一種過誤（α過誤、偽陽性:False Positive）
帰無仮説が実際には真であるのに棄却してしまう過誤。本当は帰無仮説が
正しいので，棄却してはいけないのに，誤って棄却してしまう。
例えば、ある女性が妊娠していないのに検査結果で妊娠していると判定さ
れる場合などを指す。
n  第二種過誤（β過誤、偽陰性: False Negative）
対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤。対立仮
説が正しく，帰無仮説は棄却すべきなのに，棄却しない。
妊娠しているのに、検査結果で検出できなかった場合を指す。

http://ja.wikipedia.org/wiki/第一種過誤と第二種過誤

第一種の過誤と第二種
の過誤はトレードオフ。
どちらの抑制を重視する
かは目的によって異なる。

たまに分からなくなるのでこうやって覚える。
“第一種の過誤は冤罪。第二種の過誤は犯人見逃し。”

補足ページ

偽陽性率(False Positive Rate)：α
陰性の標本集団のうち誤って陽性と判定された標本の割合
真陽性(TP)＋偽陽性(FP)

偽陽性(FP)

偽陽性率α＝

1-αを特異度と定義。これが増えると、第一種過誤となる確率が下がり、
一方で第二種過誤となる確率が上がる。

偽陰性率(False Negative Rate)：β
陽性の標本集団のうち誤って陰性と判定された標本の割合
真陰性(TN)＋偽陰性(FN)

偽陰性(FN)

偽陰性率β＝

1-βを検出力と定義。

例）検出力：0.8、100回仮説検証を行った場合に80回は検出できる

補足ページ

13.1.2 Power

期待する効果を得るために我々にできること。
!   Method 1：ノイズを可能な限り減らす。薬剤の治療率を特
定する際、患者のもつランダムな作用を取り除く（薬剤の
投与タイミング、食事の変化など）。

!   Method 2：効果の検出を向上させること。例えば、クスリ
を可能なかぎり投与(dose)する。実際はいろいろな事情があ
るらしく、難しいことも。

!   Method3：サンプルサイズを増やすことで検出力をあげる。
サンプルサイズを増やせばノイズが相殺される。一般的に
サンプルサイズを増加させることで検出力は向上する。

サンプルサイズが増えるとどうなるのか。

2群の平均値の検定
x群のサンプルサイズmが10、y群のサンプルサイズnが10の場合



http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/samplesize_pchi.htm

検定量

サンプルサイズさえ大きくすれば、実際には大した
差があるわけでもないのに有意差が認められてしま
う。サンプルサイズが大きくなるほど検出力も大き
くなる。
補足ページ

ベイズによる検出力の推定プロセス

実データ取得のプロセス

シミュレーションデータ
取得のプロセス

一般的に検出力を概算推定するには下記の手順

1:データ生成器よりランダムなサンプルデータを生成。

生成器は実データ取得時でどのようにデータが収集されるかを考慮。
2: 事前分布にもとづきベイズによる事後確率を計算

3: 事後推定から目的達成されたかどうかを集計する。

95%HDIが帰無値付近でROPEを超える or 95%HDIが設定幅より狭い。

4: 上記を繰り返す。検出力はその定義から目的が達成された回数に比例する。

13.1.3 Sample Size

!   サンプルサイズを上げれば検出力は上がるけど、コストがかか
るので、要求検出力を満たす最低限のサンプルサイズを知りた
い。
!   サンプルサイズが増えれば、その分尤度関数は狭くなるので。
事後分布も狭くなる。
!   確認：サンプル数とサンプルサイズは別ですよ。
•  サンプル数（標本数）：k 母集団から標本を抽出した回数
•  サンプルサイズ（標本の大きさ）:n 抽出された各標本に含まれる
個体の数。
箱に入っている500円玉全てを母集団とすれば,つかみ取った回数がサンプ
ル数（標本数）、それぞれ1回でつかみ取れた500円玉の数がサンプルサ
イズ（標本の大きさ）

アンチテーゼ：”ビッグデータなんていらんのじゃ”

!   「統計学ってのは限られたサンプル（抽出）データから、まだ見ぬ全体像
を知るためのもの」「だからビッグデータなんて苦労して集める必要はな
い、サンプリングされたデータだけで十分だ」

!   という主張。えーと、半分はその通りだと思います。けれども、半分はそ
うでもないかなぁ、と。

!   何故なら、レコメンダーとかSPAMフィルタなどのバックエンドシステム開
発では、できれば全数データを使って可能な限り精度を上げ続けた方が良
いものが多いからです。だからHadoop以下大規模分散処理などの高度な手
法を沢山駆使しているわけで、そこでは依然として全数データは非常に重
要です。
!   引用：@TJO_datasci ”銀座で働くデータサイエンティストのブログ”
サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める
http://tjo.hatenablog.com/entry/2013/06/21/190729

!   でもやっぱりそれは限定的なケース。
!   多くの場合は依然として、適切な抽出方法とサンプルサイズ得られたデー
タを元にリーンに（）分析するのが現実的でしょ。
補足ページ

13.2 Sample size for a single coin

!   13.2.1 When the Goal is to Exclude a Null value
2000回の試行に基づき、0.65の確率で表が出るように歪んでい
ると信じられているコイン。
このコインの表が出る確率分布の95%HDIがθ=0.5の外に位置
することを示すために必要となるサンプルサイズ。

95%HDI
Nullvalue(0.5)

Biased Coin(θ=0.65)
Flip N times

歪んだコインを投げ続けてみる

歪んだコインを投げ続けて表が出る確率分布。
•  コインの歪みっぷり：ベータ分布(連続確率分布)
•  表が出るっぷり：二項分布(離散確率分布)
のたたみ込み。
p(z | N) = d! p(z | N,!)p(!)
0
1
!
= d!binomial(z | N,!)Beta(! | a,b)
0
1
!
= d!
N
z
"
#
$$
%
&
''!z
(1(!)(N(z)
!(a(1)
/ B(a,b)
0
1
!
=
N
z
"
#
$$
%
&
''B(z + a, N ( z + b) / B(a,b)
→ベータ二項分布(BBD: Beta-Binomial Distribution)
別名：負の超幾何分布(Negative Hypergeometric Distribution)
別名：ポリア=エッゲンベルガー分布(Polya‐Eggenberger Distribution)

N
z
!
"
##
$
%
&&B(z + a, N ' z + b) / B(a,b)
(minNforHDIpower.R)

Logarithmic form to prevent underflow errors.

要求検出力(0.8)を超えるまで
サンプリングサイズを増やし続ける。

•  HDImaxwid以下にするためのサンプルサイ
ズ
•  95%HDIがnullvalueを超えるためのサンプ
ルサイズ
genPriorN: N
genPriorA: a
genPriorB: b

要求検出力(0.8)を超えたら
サンプルサイズを返して終わり。

さっきの式

•  90%の確率（検出力0.9)で、95%HDIが0.5を超えることを
示すには、最低でも111回必要。
•  generating mean が増加するほど、表になる回数の割合が
大きくなりHDIが早いうちにはしっこに偏るので、必要
となるサンプルサイズは減少する。
•  要求検出力が増加するほど、サンプルサイズは劇的に増
加する。

そもそも95%HDIがnull valueを超え得ないとき

参院選東京選挙区
出口調査10人に聞きました。
「鈴木寛にいれたよ」：4人
「山本太郎にいれたよ」：6人
の情報を元に事前分布はベータ関数BETA(7,5)で与えられるとする。

Under 72% of HDI

95%HDI

0.841
0.318

サンプルサイズを増やして
も Θ=0.5において、
72%HDIが限界!!
> x<-seq(0,1,length=10)
> p0<-dbeta(x,7,5)
> plot(p0)

13.2.2 When the Goal is Precision

事後確率の精度を求めることをゴールにする。例えば、80%
の確率で95%HDIの幅が0.2を下回るかどうかを基準とする。
95%HDIの幅が、設定したMaximal Width (0.2)を達成する際に
必要となるサンプルサイズ。
要求検出力をあげても、必要となる
サンプルサイズは微増。
ちなみに、要求HDIの幅を小さくす
ればするほどサンプルサイズは急増
する。
(たとえば0.2から0.1にするだけで検
出力80%でθ=0.6におけるサンプル
サイズは(92から)377に増える。)

13.3 Sample size for multiple Mints

!   セクション9.3.1の(P219) filtration
condensation experiment.
!   Filtration group (μ1 and μ2)
!   Condensation group(μ3 and μ4)
(μ1+μ2)/2-(μ3+μ4)/2の95%HDIが0.0を
超えることを示したい。
この場合のサンプルサイズはN=6で検出
力0.8を得ることができる！

13.3 Sample size for multiple Mints. (Cont.)

一方で、それぞれの group内における
比較：
!   μ1-μ2の95%HDIが0を超えるこ
とを示したい。
!   ＞達成されず。なぜならN=6の時
の検出力は0.04(4%)。ただし、
N=40にすると検出力が0.43(43%)
に向上。実データそのものが偶
然だったことを意味する。
!   mu3とmu4の比較について考える。
差がないことを示したい。いい
かえるなら、mu3-mu4の95%HDI
の幅が0.2以下であることを示し
たい。

!   このとき80%検出力を得るための
サンプルサイズは32である。

13.4 Power: Prospective, Retrospective and Replication

Prospective (a apiori) power analysis:
先行研究（ただし全く同じではない）を元にデータ分布の仮説をえる。

Retrospective power analysis:
実際に同じ条件で取得しているデータを元にパラメータをセットする。既に事後分布を
持っていることになる。fil-con実験はこれにあたる。

Replication power:
繰り返し実験をした際に、どのくらいの確率で目的を達成できるかを知りたい。

Retrospective power analysisと同様に、実際に同じデータを元に事後分布からデータを得る。
ただし、事前分布も同様にに元のデータから得る。

13.4.1Power Analysis Requires Verisimilitude of
Simulated Data

“検出力分析は、生成データが実データを
模擬していることが前提”
13.5 The Importance of Planning

“結構みんなサンプルサイズ設計とか軽視するけど、それ良くないよ。”
“データ取得した後に議論しても意味ないけど”
“事前にやっておけば無駄なく実験・分析を進められるし。”
“提案書を書くときとかも大事だよ。”

スモールデータで楽しい分析ライフを!

Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (9)

Plus de Hajime Sasaki

Plus de Hajime Sasaki (7)

Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"