5. 仮説検定
1. 次に、probability of null hypothesis (p値)が、どの水準以下であればその
仮説を棄却するかを決める: 有意水準の設定
2. 集めたサンプルにおいて仮説検定(例: ログランクテスト)を行なう
3. p値が有意水準以下: reject the null hypothesis p
値が有意水準以上: accept the null hypothesis
仮説検定(hypothesis testing)のながれ
有意水準: 0.05が一般的に使われている
6. RL. Wasserstein et al, The American Statistician 2016
P値の解釈や目的に関するアメリカ統計協会声明
Cited by 601
7. 仮説検定における原則
1. 科学的な結論は、P 値がある値(有意水準) を下回ったかどうかにのみに基づく
べきではない
2. 適正な推測のためには、すべてを報告する透明性が必要である
3. P 値や統計的有意性は、効果の大きさや結果の重要性を意味しない
RL. Wasserstein et al, The American Statistician 2016より一部抜粋
9. 仮説検定における原則
1. 科学的な結論は、P値がある値(有意水準) を下回ったかどうかのみに基づく
べきではない
ロナルド フィッシャー が著書 Statistical Methods for Research
Workers (1925)の中で、p = 0.05 もしくは 20回のうちに1回の確
率で起こることを統計的な有意の限界とした。
“The value for which P = '05, or 1 in 20, is 1.96 or nearly 2 ;
it is convenient to take this point as a limit in judging whether
a deviation is to be considered significant or not. Deviations
exceeding twice the standard deviation are thus formally
regarded as significant. ”
なぜ有意水準として一般的に0.05が用いられているのでしょうか?
28. • 統計的有意性は科学にとって意味のあることとは異なる。
• P 値が小さいからといって必ずしも大きなより重大な効果があることを意味
しないし、P 値が大きくても重要ではないことあるいは効果がないことを意
味しない。
仮説検定における原則
3. P 値や統計的有意性は、効果の大きさや結果の重要性を意味しない
RL. Wasserstein et al, The American Statistician 2016
35. Cumulative risk of breast cancer specific mortality (BCM)
among overall cohort of women weighted by propensity score
10-year BCM
RT group: 1.8 %
non-RT group: 2.1 %
HR: 0.73, 95%CI: 0.62-0.88
log-rank test: p= 0.003
Sagara et al. J Clin Oncol 2016
36. Hazard Ratio comparing breast cancer mortality between radiotherapy (RT)
group and non-RT group according to Prognostic Score
* Weighted by inverse propensity score
‡ Multivariate analysis adjusted by age of patients, year of diagnosis, race, tumor size, nuclear grade, and marital status
Abbreviation: RT, radiotherapy; BCM, Breast Cancer Mortality
Sagara et al. J Clin Oncol 2016
39. • 対照群と比較して、治療効果の大きさは十分か?
• プライマリーのアウトカムは臨床的に重要か?
• 確信に足るだけのサンプルサイズやイベントがあるか?
• その効果と安全性のバランスに懸念はないか?
• 試験デザインや試験の遂行において欠陥はないか?
• その試験結果は目の前の患者に適用できるか?
The Primary Outcome Is Positive — Is That Good Enough?
SJ Pocock et al, N Engl J Med 2016 より改変, 一部抜粋
3. P 値や統計的有意性は、効果の大きさや結果の重要性を意味しない
仮説検定における原則:まとめ 3
Key Questions to Ask When the Primary Outcome Is Positive
42. The list of the criteria is as follows:
1. Strength (effect size): The larger the association, the more likely that
it is causal (large: RR >2 or <0.5, very large: RR >5 or <0.2)
2. Consistency (reproducibility): Consistent findings observed by different
persons in different places with different samples strengthens the
likelihood of an effect
3. Specificity: The more specific an association between exposure and
outcome is, the bigger the probability of a causal relationship
4. Temporality: The outcome has to occur after the exposure
Proc Royal Society Med. 1965; 58:295-300.
Emerg Themes Epidemiol. 2015; 12: 14.
観察された結果は因果関係(真実)か?
- Bradford Hill's nine criteria (1965) -
43. 5. Biological gradient/dose response relationship: Greater exposure
should generally lead to greater incidence of the effect
6. Plausibility: A plausible mechanism between exposure and outcome
7. Coherence: Not conflict with the generally known facts of the natural
history and biology of the disease
8. Experiment: Experimental and semi-experimental evidence
9. Analogy: Similar existing evidence about the exposure and outcome
Proc Royal Society Med. 1965; 58:295-300.
Emerg Themes Epidemiol. 2015; 12: 14.
エビデンスの質を判定するGRADE基準もこのクライテリアを採用
観察された結果は因果関係(真実)か?
- Bradford Hill's nine criteria (1965) -
46. Hazard Ratio comparing breast cancer mortality between radiotherapy (RT)
group and non-RT group according to Prognostic Score
* Weighted by inverse propensity score
‡ Multivariate analysis adjusted by age of patients, year of diagnosis, race, tumor size, nuclear grade, and marital status
Abbreviation: RT, radiotherapy; BCM, Breast Cancer Mortality
Effect size 大きい
Biological gradient あり
リスクが上がるごとに効果が高い
-> plausible
Sagara et al. J Clin Oncol 2016
54. 臨床試験におけるサブグループ解析の信頼性を評価するためのクライテリア
- JAMA ユーザーズガイド -
評価基準
1. サブグループにおける効果の仮説と効果の方向性を事前に設定している
2. サブグループごとに効果が異なることが偶然であるかを、交互作用の統計的検定
により検討している
3. サブグループごとの効果の違いは、研究間で再現性がある
4. サブグループごとの効果の違いを説明できる、生物学的根拠がある
4つの基準のうち3つ満たされていることが必要
X Sun and Gordon Guyatt, et al. JAMA 2014
55. • A post-hoc interaction test to assess for consistency of the treatment
effects across the visceral and non-visceral subgroups gave a p value
of 0·0092.
Robertson JFR et al. Lancet 2016; 388:2997-3005.
1. サブグループにおける効果の仮説と効果の“方向性”を事前に設定している
2. サブグループごとに効果が異なることが偶然であるかを、交互作用の統計
的検定により検討している
• あらかじめプロトコル等で、内臓転移でFULの効果が少ないと設定して
いたか?
サブグループ評価解析の基準: FALCON試験では?
56. • FIRST trial1): phase II
– AI vs FUL (500)
• Cochrane Systematic Review 20172)
– AI or SERD vs. FUL (250) or FUL (500)
いずれも再発部位別におけるDFSのサブグループ解析なし
1) Robertson JFR et al, JCO 2009, BCRT 2012
2) Published in 3 January 2017, CD011093
3. サブグループごとの効果の違いは、研究間で再現性がある
サブグループ評価解析の基準: FALCON試験では?