臨床家が知っておくべき臨床疫学・統計

社会医療法人博愛会相良病院
相良安昭
臨床医が知っておくべき
臨床疫学・統計における基本的事項
- 統計マジックに惑わされないために -

2
1. 仮説検定の原則：p – valueの限界
2. 研究によって得られた結果は真実か？
3. サブグループ解析の信頼性について
臨床医が知っておくべき臨床疫学・統計における基本的事項

1. 特定の患者(population, 母集団)に関するリサーチクエスチョン（仮説）を立て、試
験デザイン決定する。
2. 母集団の中から患者(サンプル, 標本)を選んで、そのクエスチョンに関するデー
タを集める
3. 統計解析を行う
4. 結果を報告する
臨床研究の発案から結果報告まで
仮説検定 (hypothesis testing)

仮説検定(hypothesis testing)のながれ
まず、リサーチクエスチョン：ある母集団において治療Aは治療Bに効果が勝るか？
• 帰無仮説と対立仮説
- 帰無仮説 (null hypothesis): 治療Aと治療Bの効果（例. PFS）が同じである
- 対立仮説 (alternative hypothesis): 治療Aが治療Bに効果（例. PFS）が勝る

仮説検定
1. 次に、probability of null hypothesis (p値)が、どの水準以下であればその
仮説を棄却するかを決める：有意水準の設定
2. 集めたサンプルにおいて仮説検定(例: ログランクテスト)を行なう
3. p値が有意水準以下： reject the null hypothesis p
値が有意水準以上: accept the null hypothesis
仮説検定(hypothesis testing)のながれ
有意水準： 0.05が一般的に使われている

RL. Wasserstein et al, The American Statistician 2016
P値の解釈や目的に関するアメリカ統計協会声明
Cited by 601

仮説検定における原則
1. 科学的な結論は、P 値がある値（有意水準）を下回ったかどうかにのみに基づく
べきではない
2. 適正な推測のためには、すべてを報告する透明性が必要である
3. P 値や統計的有意性は、効果の大きさや結果の重要性を意味しない
RL. Wasserstein et al, The American Statistician 2016より一部抜粋

1. 科学的な結論は、P値がある値（有意水準）を下回ったかどうかのみに基づく
べきではない
なぜ有意水準として一般的に0.05が用いられているのでしょうか？

べきではない
ロナルドフィッシャーが著書 Statistical Methods for Research
Workers (1925)の中で、p = 0.05 もしくは 20回のうちに１回の確
率で起こることを統計的な有意の限界とした。
“The value for which P = '05, or 1 in 20, is 1.96 or nearly 2 ;
it is convenient to take this point as a limit in judging whether
a deviation is to be considered significant or not. Deviations
exceeding twice the standard deviation are thus formally
regarded as significant. ”
なぜ有意水準として一般的に0.05が用いられているのでしょうか？

Q：一枚のコインを投げてギャンブルをしていました。
何回表が連続して出たら、偽コインだと考えますか？
普通のコイン：‘おもて’と‘うら’
偽コイン：両面共に‘おもて’

コイントスにて表が連続した場合の、普通コインと偽コインの可能性
普通のコインの可能性表が連続する回数偽コインの可能性
４回連続して表が出た＝普通のコイン
５回連続して表が出た＝偽コイン？

12
1.00
0.10
0.05
0.01
0.001
0
P > 0.10 : Not significant
P < 0.10 : Marginal
P < 0.05 : Fair
P < 0.01 : Good
P < 0.001 : Excellent
☜ 有意水準に
設定することが多い
☜ GWAS
5×10-8
☜ false positive
となる可能性高いが
ここに設定することもある

暴露/治療
Exposure
結果
Outcome
交絡因子
Confounder
交絡因子の影響を調整しなければ、
暴露（治療）と結果との真の関係は分からない
質の高い臨床研究を行うためには、交絡因子の影響を排除することが最も大切

交絡因子の影響を調整する方法
• デザイン段階
1. ランダム化
2. 限定 (restriction)
3. マッチング
• 解析段階
1. 標準化
2. 層別化
3. マッチド解析
4. 多変量解析
5. プロペンシティスコア

• p < 0.05はコンセンサスの一つ
– p=0.06とp=0.03の違いはそれほど大きくなく、p=0.05を下回るかどうかの
みに結論の根拠を求めてはいけない
• 臨床研究では交絡因子の影響を適切に調整しているかが最も重要
– 研究デザイン
– 解析方法
15
べきではない
仮説検定における原則：まとめ１

• 見込みのありそうな結果のみを採用すると、出版された論文に統計的に有意
な結果が誤って過剰に報告されるため、厳に避けなければならない
- データピッキング、有意クエスト、選択的推論、P 値ハッキング

検定結果
あらかじめ定められた仮説検定
プライマリーエンドポイントや
サンプル数・有意水準の設定
あらかじめ定められたリサーチクエスチョン
通常の仮説検定
仮説検定のピットフォール：多重性 (multiplicity)の問題
研究内で
リサーチクエスチョンと
検定結果は１：１の関係

検定結果
あらかじめ定められた仮説検定
プライマリーエンドポイントや
サンプル数・有意水準の設定
あらかじめ定められたリサーチクエスチョン
通常の仮説検定
有意となった結果を報告
複数の統計解析
曖昧なリサーチクエスチョン
多重検定によるdata picking
仮説検定のピットフォール：多重性 (multiplicity)の問題
研究内で
リサーチクエスチョンと
検定結果は１：１の関係

仮説検定における原則：まとめ２
 プロトコルの重要性
a. リサーチクエスチョン → どのような検定を行なうか
b. プライマリーエンドポイントに関しては有意水準を設定する
• 行なった仮説検定の数と有意水準レベル
- Bonferroni法などの補正を行なったか
 結果の報告
• サブグループ解析や調整解析を含め、実施した他の解析を報告す
ることで多重性に言及する。また、解析は事前に特定されたものか
探索的なものかを示す1)
1) CONSORT声明改訂版, JAMA2001

ランダム化比較試験： CONSORT声明 (1996)
観察研究： STROBE声明 (2007)
Epidemiology. 2007
Ann Intern Med. 2007

• 統計的有意性は科学にとって意味のあることとは異なる。
• P 値が小さいからといって必ずしも大きなより重大な効果があることを意味
しないし、P 値が大きくても重要ではないことあるいは効果がないことを意
味しない。

BOLERO-2: PFS比較
José Baselga et al., NEJM 2012

PALOMA-2：PFS比較
RS Fin et al., N Engl J Med 2016
Median PFS： 30.5ヶ月 vs. 19.3ヶ月

J.G.M. Klijn et al., JCO 2001
Meta-analysis (LH-RHa + TAM vs. LH-RHa): OS比較
Median OS： 3.1年 vs. 2.5年

Clinical trial /
MA
(pts. number)
Clinical setting
Relative risk
difference
HR (95% CI)
Absolute risk
difference
P-value
BOLERO-2
(724)
ER+, MBC 2nd 0.36 (0.27-0.47)
Median PFS:
6.5 months
< .001
PALOMA-2
(666)
ER+, MBC 1st 0.65 (0.51-0.84)
Median PFS:
11.2 months
. 001
Meta-analysis
(506)
ER+, MBC 1st 0.78 (0.68-0.88)
Median OS:
6 months
.02
３つの指標のうち、
• 臨床において、最も参考になるものは？
• １つ不要なものは？
各試験結果のサマリー

Clinical trial /
MA
(pts. number)
Clinical setting
Relative risk
difference
HR (95% CI)
Absolute risk
difference
P-value
BOLERO-2
(724)
ER+, MBC 2nd 0.36 (0.27-0.47)
Median PFS:
6.5 months
< .001
PALOMA-2
(666)
ER+, MBC 1st 0.65 (0.51-0.84)
Median PFS:
11.2 months
. 001
Meta-analysis
(506)
ER+, MBC 1st 0.78 (0.68-0.88)
Median OS:
6 months
.02
３つの指標のうち、
• 臨床において、最も参考になるものは？
• １つ不要なものは？
各試験結果のサマリー
Summery statisticsでは
Relative risk (95%CI), absolute risk difference 共に示すことが重要

APHINITY：IDFS比較
G von Minckwitz et al., N Engl J Med 2017

Cumulative risk of breast cancer specific mortality (BCM)
among overall cohort of women weighted by propensity score
10-year BCM
RT group: 1.8 %
non-RT group: 2.1 %
HR: 0.73, 95%CI: 0.62-0.88
log-rank test: p= 0.003
Sagara et al. J Clin Oncol 2016

Hazard Ratio comparing breast cancer mortality between radiotherapy (RT)
group and non-RT group according to Prognostic Score
* Weighted by inverse propensity score
‡ Multivariate analysis adjusted by age of patients, year of diagnosis, race, tumor size, nuclear grade, and marital status
Abbreviation: RT, radiotherapy; BCM, Breast Cancer Mortality

P値は‥
• サンプルサイズを用いた関数で決定されるため、
- サンプルサイズが大きいとき：全てが有意となる
• P-valueは小さくなる
• 臨床的妥当性をチェックすることが重要
- サンプルサイズが小さいとき：全てが有意とならない
• 効果(effect size)がとても大きくなければ、小さいp-
valueは得られない

P-valueの限界
• 関連の強さを反映していない
- サンプルサイズによってp-valueは変化する
• 効果の大きさに関する情報を提供しない (例, 臨床的妥当性)
- 統計的有意 (例, p<0.05)は臨床的妥当性を意味しない
- 統計的に有意でなくても(例, p>0.05) 、効果が無いことを意味
しない

• 対照群と比較して、治療効果の大きさは十分か？
• プライマリーのアウトカムは臨床的に重要か？
• 確信に足るだけのサンプルサイズやイベントがあるか？
• その効果と安全性のバランスに懸念はないか？
• 試験デザインや試験の遂行において欠陥はないか？
• その試験結果は目の前の患者に適用できるか？
The Primary Outcome Is Positive — Is That Good Enough?
SJ Pocock et al, N Engl J Med 2016 より改変, 一部抜粋
仮説検定における原則：まとめ 3
Key Questions to Ask When the Primary Outcome Is Positive

40

NEJM 2016 375;6 August 11
Conducted by Bradford Hill

The list of the criteria is as follows:
1. Strength (effect size): The larger the association, the more likely that
it is causal （large: RR >2 or <0.5, very large: RR >5 or <0.2）
2. Consistency (reproducibility): Consistent findings observed by different
persons in different places with different samples strengthens the
likelihood of an effect
3. Specificity: The more specific an association between exposure and
outcome is, the bigger the probability of a causal relationship
4. Temporality: The outcome has to occur after the exposure
Proc Royal Society Med. 1965; 58:295-300.
Emerg Themes Epidemiol. 2015; 12: 14.
観察された結果は因果関係(真実)か？
- Bradford Hill's nine criteria (1965) -

5. Biological gradient/dose response relationship: Greater exposure
should generally lead to greater incidence of the effect
6. Plausibility: A plausible mechanism between exposure and outcome
7. Coherence: Not conflict with the generally known facts of the natural
history and biology of the disease
8. Experiment: Experimental and semi-experimental evidence
9. Analogy: Similar existing evidence about the exposure and outcome
Proc Royal Society Med. 1965; 58:295-300.
Emerg Themes Epidemiol. 2015; 12: 14.
エビデンスの質を判定するGRADE基準もこのクライテリアを採用
観察された結果は因果関係(真実)か？
- Bradford Hill's nine criteria (1965) -

用量依存性(dose response)なし
Effect size 非常に小さい
nが多ければ、effect size小さくても有意になる
ダーク染色
African Americanのみ
結果はplausibleか？

Hazard Ratio comparing breast cancer mortality between radiotherapy (RT)
group and non-RT group according to Prognostic Score
* Weighted by inverse propensity score
‡ Multivariate analysis adjusted by age of patients, year of diagnosis, race, tumor size, nuclear grade, and marital status
Abbreviation: RT, radiotherapy; BCM, Breast Cancer Mortality
Effect size 大きい
Biological gradient あり
リスクが上がるごとに効果が高い
-> plausible

研究によって得られた結果は真実か？
観察された結果が因果関係(真実)かどうかの判断は
統計学的有意差だけではなく、効果の大きさや再現性、
生物学的妥当性（例. biological gradient/dose , plausibility）が重要

48

• サブグループ解析は多重解析による偶然の結果をもたらす可能性が高くなる
• 407のランダム化比較試験のうち、64の解析においてプライマリーエンドポイントは
サブグループ別に効果が異なると主張していたが、ほとんどの例においてその主
張は誤解を招くものであった
• サブグループ解析によって示唆されるのは、効果のあり・なしではなく、効果の強・
弱である。全体の結果における、効果のあり、なしが優先される
X Sun and Gordon Guyatt, et al. BMJ. 2012
サブグループ解析に関するシステマティックレビューより

FALCON
Robertson JFR et al. Lancet 2016; 388:2997-3005.

5
2
FALCON サブグループ解析結果 (PFS)

このサブグループ解析の結果を臨床に応用できますか？

臨床試験におけるサブグループ解析の信頼性を評価するためのクライテリア
- JAMA ユーザーズガイド -
評価基準
1. サブグループにおける効果の仮説と効果の方向性を事前に設定している
2. サブグループごとに効果が異なることが偶然であるかを、交互作用の統計的検定
により検討している
3. サブグループごとの効果の違いは、研究間で再現性がある
4. サブグループごとの効果の違いを説明できる、生物学的根拠がある
4つの基準のうち３つ満たされていることが必要
X Sun and Gordon Guyatt, et al. JAMA 2014

• A post-hoc interaction test to assess for consistency of the treatment
effects across the visceral and non-visceral subgroups gave a p value
of 0·0092.
1. サブグループにおける効果の仮説と効果の“方向性”を事前に設定している
2. サブグループごとに効果が異なることが偶然であるかを、交互作用の統計
的検定により検討している
• あらかじめプロトコル等で、内臓転移でFULの効果が少ないと設定して
いたか？
サブグループ評価解析の基準: FALCON試験では？

• FIRST trial1): phase II
– AI vs FUL (500)
• Cochrane Systematic Review 20172)
– AI or SERD vs. FUL (250) or FUL (500)
いずれも再発部位別におけるDFSのサブグループ解析なし
1) Robertson JFR et al, JCO 2009, BCRT 2012
2) Published in 3 January 2017, CD011093
3. サブグループごとの効果の違いは、研究間で再現性がある
サブグループ評価解析の基準: FALCON試験では？

FIRST試験サブグループ解析結果 (OS)
MJ Ellis, JCO2015

臨床試験におけるサブグループ解析の信頼性を評価するための4つのクライテリア
JAMA ユーザーズガイド
評価基準 FALCON
1. サブグループにおける効果の仮説と効果
の方向性を事前に設定している
臓器転移別にFULが勝るかどうかの、事前の
設定なし。層別化因子に臓器転移の有無が
入っていない。
2. サブグループごとに効果が異なることが偶
然で割るかを、交互作用の統計的検定に
より検討している
Post-hoc interaction testにて確認
3. サブグループごとの効果の違いは、研究
間で再現性がある
先行研究において、転移部位ごとのFUL有効
性の検討はない。
FIRST試験のOSの比較では再現性はない
4. サブグループごとの効果の違いを説明で
きる、生物学的根拠がある
一般的に内臓転移はホルモン感受性低く、非
内臓転移はホルモン感受性高い
４つの基準のうち２つのみを満たし、信頼できる結果とは言えない
今後行なわれる試験で再現性があるか
X Sun and Gordon Guyatt et al. JAMA 2014

59

60
• 試験デザイン・統計手法
• 研究仮説 -> 仮説検定は1:1
- 前もって予想された効果か？
- 多重検定はないか？
• 統計的に有意であった場合
− P値の限界
− 臨床的な意義・効果の大きさ
− 生物学的妥当性
− 他の臨床試験や研究における再現性

臨床家が知っておくべき臨床疫学・統計

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 臨床家が知っておくべき臨床疫学・統計

Similaire à 臨床家が知っておくべき臨床疫学・統計 (20)

臨床家が知っておくべき臨床疫学・統計