SlideShare a Scribd company logo
1 of 90
Median power = .25 ~ .46
註:Sterne & Smith, (2001), Table 3 の一部を改変して引用
?
REPLICATION
追試
なぜ、何を、どうやるか
池田功毅・中京大学
専修大学 2018/03/12
なぜ追試?
3種類の科学研究
by Noah Smith
■ 歴史研究
– 生じ得る現象を特定。一般性に欠ける?
■ 観察研究
– 相関関係を特定。因果性に欠ける?
■ 実験研究
– 因果関係を特定。妥当性に欠ける?
http://noahpinionblog.blogspot.jp/2014/10/three-ways-of-understanding-
world.html?m=1
by Sir Karl Popper
https://hardsci.wordpress.com/2014/11/19/popper-on-direct-replication-tacit-knowledge-and-
theory-construction/
追試の科学的価値
■ 当該現象が、ある未知の前提や、偶
然によって生じた特殊なケースでは
なく、一般化可能であることを示す
ため、追試は必要。
■ 特に出版バイアスのもとでは、特殊
な成功ケースの報告が増えるため、
追試は極めて重要。
追試の扱い方
■ でも、もちろん一度の追試成功/失敗
で結論は付けられない。
1. 確率的だから。
たまたま出ることもある!
たまたま出ないこともある!
追試はType I Error を防ぐ
■ 出版バイアス文化のもとでは、「た
またま出ない」type II error よりもは
るかに「たまたま出た」type I error
への対処が重要。
■ プレレジして、出版バイアスがない
追試を何度も行えば、type I error の
発生を防ぐことができる。
追試の扱い方
■ でも、もちろん一度の追試成功/失敗
で結論は付けられない。
1. 確率的だから。
2. Popper の「反証可能性」ほど話は単
純ではないから。
Imre Lakatos
(1922 – 1974)
proposed the idea of
“Research Programme.”
Research Programme
Hard
Core
Auxiliary
Hypotheses
When Auxiliary Hyp. are well-defined…
Hard
Core
🔨
Auxiliary
Hypotheses
Falsified!
When Auxiliary Hyp. are well-defined…
Hard
Core
🔨
Auxiliary
Hypotheses
Not falsified!
When A. Hyp. are not well-defined…
Hard
Core
🔨
Auxiliary
Hypotheses
Hard
Core
🔨
🔨
When the test failed…
Auxiliary
Hypotheses
Hard
Core
Auxiliary
Hypotheses
Hard
Core
Hard
Core
🔨🔨
🔨
??
?
?
?
?
?
?
?
?
?
?
?
When the test succeeded…
Auxiliary
Hypotheses
Auxiliary
Hypotheses
Hard
Core
Hard
Core
Auxiliary
Hypotheses
Hard
Core
🔨🔨
🔨
「弱い理論」のもとでは…
■ 検証の「成功」は、コア+補助理論
全体を保証するが、コア理論の正し
さを保証はしない。
■ 検証の「失敗」は、補助理論が正し
くなかっただけかも? なので、コア
理論を救出することは無限に可能。
直接的・概念的追試
■ Latatos の research programme にお
ける「コア理論」と「補助理論」に
ほぼ対応。
– ある心理学的概念 = コア理論
– 個々の研究デザイン特有の前提 = 補助
理論。
概念A
実験1
実験2
実験3
実験4
実験5
実験6
直接的追試
概念的追試
概念A
実験1
実験2
実験3
実験4
実験5
実験6
直接的追試
概念的追試
補助理論
コア理論
直接的追試
■ 元研究をできるだけ忠実に再現。
– 完全再現は無理。サンプル・日時・場
所・実験者・天気・景気・気分 etc. が
違う。
■ 元研究で、当該効果の導出に重要と
言われている要素を、できるだけ忠
実に再現。
概念的追試
■ 元研究の「拡張 extension」とか、
「代替テスト alternative test」など
と呼んだ方が分かりやすい?
■ 異なる文脈で、知見の一般化可能性、
外的妥当性を検証する。
■ 理論化にとって重要。
概念A
実験1
実験2
実験3
実験4
実験5
実験6
直接的追試
概念的追試
🔨
🔨
🔨
?
?
?
?
?
?
?
?
?
?
?
?
?
直接的追試に失敗しても…
■ 何をコア理論 = 概念的追試、何を補
助理論 = 直接的追試と見做すかは曖
昧で、研究者の主観に依存する。
■ コア理論 = 概念を永遠に救済し続け
ることも、原理的には可能。
救済の例
■ 文脈の影響?
– 国・時代・地域・大学 etc…
– 文化と質問内容の交互作用 etc…
■ 実験者の熟達度?
– Deception, confederate etc.
– 動物実験、赤ちゃん実験 etc.
たまたま出ることもある!
たまたま出ないこともある!
直接追試の失敗を見たら…
■ 出版バイアス文化圏では、追試失敗
の方が重要。
■ 先行研究は「たまたま出た」type I
error である可能性はないか?
■ 疑わしい場合は、さらに追試を続け
るべき。
直接追試の失敗を見たら…
■ 後でやるから「追試」でしかない。
■ 「元実験」は何らかの理由でうまく
いったのでは?と考えるなら、時系
列を逆転して考えてみよう。
■ 「元実験」が失敗だったら、あなた
は本当に「追試」をしていますか?
「弱い理論」のもとでも…
■ 原理的に無限の救出が可能だが、さ
すがに追試の失敗が続くと、研究者
が積極的にその仮説を救出し続ける
気をなくす。
■ “Degenerative” programme
概念的追試の重要性
■ 直接的追試の成功がないと研究を進
められない。すべての基礎。
■ しかし、特定の実験デザインから一
般化できて、初めて理論形成可能な
ので、概念的追試はより重要。
■ 直接的追試 → 概念的追試
“実験者の熟達度”問題
■ 特に熟達が必要な領域
– 社会心理の deception、動物実験、生
理指標の測定、赤ちゃん研究 etc.
■ 再現可能な「熟達」が定式化されて
いないことの方が問題。
■ ベストプラクティスのガイド論文/
本・WS 等を作って共有すべき。
「なぜ追試?」まとめ
■ 直接的追試は概念的追試の前提。科
学の基礎の基礎。
■ 心理学で「コア理論」と「補助理
論」を区別することは難しい。
■ 追試失敗を見たら、無限の救出劇に
走る前に、自分の考えを反省してみ
よう。
ちなみに…
■ 追試に限らず、「考察」部分で「コ
ア理論」の無限救出を試みるケース
は多い。
– 予想外の結果だが…
– 有意傾向の交互作用が見られた…
■ 単純に、コア理論が間違っていた可
能性も考えてみよう。
なにを追試?
なにを追試?
■ やりやすい追試・センセーショナル
な追試に偏ってないか?
■ 三浦科研:「ほんまかいな」「ほん
まやんな」追試
Kühberger & Schulte-Mecklenbeck (2018) Selecting target papers for replication
なにを追試?
■ やる意義のある追試対象とは何か。
■ その追試のコストパフォーマンスを
考えてみよう。
■ 期待効用理論に基づく考察は可能?
考慮すべき要因
■ 先行研究の信頼性(1)
■ 先行研究の信頼性(2)
■ 正しい知見の価値
■ 追試実行のコスト
先行研究の信頼性(1)
■ そもそも先行研究のデータ処理や分
析は正しいのか。
– 出版されている心理学論文の約半数に
何らかの間違いが見られるという報告
もある。
– そもそもデータが公開されていない
ケースも多い。
Nuijten et al. (2018)Verify Original Results through Reanalysis before
Replicating.
http://statcheck.io/
http://shinyapps.org/apps/p-checker/
先行研究の信頼性 (2)
■ 再現可能な知見がどの程度あるか?
■ 心理学理論や仮説はどの程度正しい
か?
正しい知見の価値
■ 当該知見が正しかった場合の…
■ 理論的価値
■ 実践的・応用的な価値
追試実行のコスト
■ 研究遂行の時間・労力
■ 複数ラボ間の調整
■ 謝金
Bayes で考えてみる:
■ データを前提とした時の各仮説の事
後確率 ∝ 各仮説の事前確率 × その仮
説を前提とした時のデータの尤度
Hardwick et al. (2018) A Bayesian decision-making framework for replication
情報利得 information gain
■ Kullback–Leibler divergence
– 事前確率 Q を事後確率 P に更新した時
得られる情報の量。
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
研究の信頼性 credibility
■ 個々の研究の信頼性を、情報量に対
する重み付けとして考えてみる。
■ メタアナリシスのように variance/サ
ンプルサイズだけではなく、プレレ
ジやオープンデータの有無も信頼性
に含める。
直観的な洞察
■ どちらともあり得る仮説間で白黒つ
けた時は、情報量が大きい。
■ あり得そうな仮説に強い支持を与え
るだけ、あるいはその逆の場合、得
られる情報量は少ない。
■ 追試の場合、先行研究が信用できな
いものだと、追試の情報量は大きい。
経験的に算出できるか?
■ 各パラメータの推定
– 調査で情報利得 DKLは測定可能?
– 信頼性 R も論文から読み取れる?
– 追試コスト C も推定可能?
– 報酬価/利得 B の推定難しそう。
■ 以下の式を調整したもので、その追試を
やるべき度合いを示せるか?
(𝐷 𝐾𝐿× 𝑅) × 𝐵 − 𝐶
今後の可能性
■ 教科書に載っている重要なトピック
のそれぞれについて「やるべき度」
を算出し、適切に資源を振り分けて
いくことも不可能ではない?
「なにを追試」まとめ
■ 追試対象の選択に恣意的なバイアス
があっては全体像が歪むかも。
■ 決定理論(期待効用理論?)に基づく
優先順位付けを考えても良いかもし
れない。今後の発展に期待。
どうやって追試?
個々の追試結果の判定基準
■ p < .05?
■ 元研究の推定値が追試の 95% CI に
入っているかどうか?
■ 元研究と追試を合わせて有意になる
かどうか?
■ どれも決め手にかける。
LeBel et al. (2018) A Guide to Evaluate Replications:
A Comment on Zwaan et al. (2017)
最終的には…
■ 多くの追試結果が出版バイアスなし
に蓄積され、メタアナリシスにかけ
られることが理想。
N が足りない…?
■ 信頼できる追試をするには検定力を
上げる必要がある。
■ 調べみたら、とてもうちのラボじゃ
できません…
ひとつ提案
■ 卒論や修論などで大規模追試をやる
ための学生ネットワークを作る。
■ StudySwap や PSA のようなフレーム
ワークを日本語で作り、できるだけ
学生主体でやらせてみる。
■ プロジェクト・マネージメントの教
育になる。
「どうやって追試」まとめ
■ 追試結果判定の技術的開発は進んで
いる。最新のものを使ってみよう。
■ 大規模研究協力体制の確立も進んで
いる。参加してみよう。
■ 学部生/院生向けの日本語プラット
フォームを作っても良いかも。
「追試」を超えて
■ とにかく直接的追試は基礎の基礎。
■ 早く教科書を書き直すべき。無理な
救出作戦はあきらめよう。理論たち
が死屍累々でも構わない。
■ その上で新しい理論構築の段階が到
来するはず。
おわり

More Related Content

What's hot

Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
 
大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端
Takuya Akiba
 

What's hot (20)

Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
 
Arithmer NLP 自然言語処理 ソリューション紹介
Arithmer NLP 自然言語処理 ソリューション紹介Arithmer NLP 自然言語処理 ソリューション紹介
Arithmer NLP 自然言語処理 ソリューション紹介
 
Bandit algorithm overview_and_practice
Bandit algorithm overview_and_practiceBandit algorithm overview_and_practice
Bandit algorithm overview_and_practice
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
 
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライドNLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
 

Similar to 追試: なぜ、なにを、どうやるか

2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
BostonIDI
 
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
c a
 
アクション・リサーチ再考:結果の一般化に焦点を当てて
アクション・リサーチ再考:結果の一般化に焦点を当ててアクション・リサーチ再考:結果の一般化に焦点を当てて
アクション・リサーチ再考:結果の一般化に焦点を当てて
Takuro Fujita
 
SSH Physician-Scientists(臨床研究者への道)
SSH Physician-Scientists(臨床研究者への道)SSH Physician-Scientists(臨床研究者への道)
SSH Physician-Scientists(臨床研究者への道)
BostonIDI
 

Similar to 追試: なぜ、なにを、どうやるか (11)

リモート監視は心配性さんの創造性を高める
リモート監視は心配性さんの創造性を高めるリモート監視は心配性さんの創造性を高める
リモート監視は心配性さんの創造性を高める
 
JPA 2020 若手の会シンポ 平石&中村スライド
JPA 2020 若手の会シンポ 平石&中村スライドJPA 2020 若手の会シンポ 平石&中村スライド
JPA 2020 若手の会シンポ 平石&中村スライド
 
【レジュメ】選択の科学(Nhk白熱教室より) スキルアップ勉強会120421
【レジュメ】選択の科学(Nhk白熱教室より) スキルアップ勉強会120421【レジュメ】選択の科学(Nhk白熱教室より) スキルアップ勉強会120421
【レジュメ】選択の科学(Nhk白熱教室より) スキルアップ勉強会120421
 
2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
2013 Summner Seminar Endocrinology & Metabolism at Yufuin, Dr. Shimaoka
 
Ocha phil2013
Ocha phil2013Ocha phil2013
Ocha phil2013
 
20130901_survey_nagoya
20130901_survey_nagoya20130901_survey_nagoya
20130901_survey_nagoya
 
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
第2回:”科学的”ってどういうこと?ー疑似科学との境界を追うー
 
アクション・リサーチ再考:結果の一般化に焦点を当てて
アクション・リサーチ再考:結果の一般化に焦点を当ててアクション・リサーチ再考:結果の一般化に焦点を当てて
アクション・リサーチ再考:結果の一般化に焦点を当てて
 
研究発表で失敗しないための8つのTips
研究発表で失敗しないための8つのTips研究発表で失敗しないための8つのTips
研究発表で失敗しないための8つのTips
 
140123 臨床研究は手間暇かけて丁寧に
140123 臨床研究は手間暇かけて丁寧に140123 臨床研究は手間暇かけて丁寧に
140123 臨床研究は手間暇かけて丁寧に
 
SSH Physician-Scientists(臨床研究者への道)
SSH Physician-Scientists(臨床研究者への道)SSH Physician-Scientists(臨床研究者への道)
SSH Physician-Scientists(臨床研究者への道)
 

追試: なぜ、なにを、どうやるか