Contenu connexe
Similaire à 統計モデリングで癌の5年生存率データから良い病院を探す (18)
統計モデリングで癌の5年生存率データから良い病院を探す
- 19. 散布図行列
• 散布図行列を描くには (corrplot, pairs, GGally)
• http://statmodeling.hatenablog.com/entry/scat
ter-plot-matrix
• 個人的なオススメは
{GGally}パッケージのggpairs関数
19
- 20. 各病院の 実測生存率 20
• 山型の分布
• 乳癌は高い
• 肺癌・肝癌は低い
• 散布図は結構丸い
• 1つの点が1つの
病院に対応.
• おおよそ正の相関
- 23. 年代 と 進行度 の分布 23
病院
年代 進行度
• 良い図ではないが傾向は
つかめる.
• 病院ごとに足すと1になる
ように規格化(割合).
• 年代:ほぼすべての病院で
60・70歳代が多い.
おおよそ山型.
• 進行度:かなりバラバラ.
おおよそフラット.
- 34. 34
手術確率 𝑝 𝑜𝑝𝑒生存確率 𝑝𝑠𝑢𝑟𝑣
𝑟𝑠𝑢𝑟𝑣
各年代の人数
𝐴𝑔𝑒
各進行度の人数
𝑆𝑡𝑎𝑔𝑒 男性の数 𝑀𝑎𝑙𝑒
手術数 𝑂𝑝𝑒生存数 𝑆𝑢𝑟𝑣
説明変数だけでは説明できない
病院由来の差(≒腕の良さ)
𝑟𝑜𝑝𝑒
ℎ = 1, … , 𝐻 (病院の数)
𝑡 = 1, … , 𝑇 (癌種の数) ※本当は全ての変数に 𝑡, ℎ の添え字がつくけど説明のため省略
平均年齢 𝜇 𝑎𝑔𝑒
平均進行度 𝜇 𝑠𝑡𝑎𝑔𝑒
男性割合 𝑞 𝑚𝑎𝑙𝑒
- 37. 年代・進行度・その他の部分
𝐴𝑔𝑒 𝑡, ℎ ~ Multinomial 𝑁 𝑡, ℎ , 𝑝 𝑎𝑔𝑒 𝑡, ℎ
𝑆𝑡𝑎𝑔𝑒 𝑡, ℎ ~ Multinomial 𝑁 𝑡, ℎ , 𝑝𝑠𝑡𝑎𝑔𝑒 𝑡, ℎ
𝑝 𝑎𝑔𝑒 𝑡, ℎ, 𝑎 = න
𝐶𝑢𝑡𝑜𝑓𝑓𝑎𝑔𝑒 𝑎
𝐶𝑢𝑡𝑜𝑓𝑓𝑎𝑔𝑒 𝑎+1
Normal 𝜇 𝑎𝑔𝑒 𝑡, ℎ , 𝜎 𝑎𝑔𝑒 𝑡
𝑝𝑠𝑡𝑎𝑔𝑒 𝑡, ℎ, 𝑠 = න
𝐶𝑢𝑡𝑜𝑓𝑓𝑠𝑡𝑎𝑔𝑒 𝑠
𝐶𝑢𝑡𝑜𝑓𝑓𝑠𝑡𝑎𝑔𝑒 𝑠+1
Normal 𝜇 𝑠𝑡𝑎𝑔𝑒 𝑡, ℎ , 𝜎𝑠𝑡𝑎𝑔𝑒 𝑡
𝑀𝑎𝑙𝑒 𝑡, ℎ ~ Binomial 𝑁 𝑡, ℎ , 𝑞 𝑚𝑎𝑙𝑒 𝑡, ℎ
𝑆𝐶 𝑡, ℎ ~ Binomial 𝑁 𝑡, ℎ , 𝑞 𝑆𝐶 𝑡, ℎ
37
- 38. 生存数・手術数の部分
𝑆𝑢𝑟𝑣 𝑡, ℎ ~ Binomial 𝑁 𝑡, ℎ , 𝑝𝑠𝑢𝑟𝑣 𝑡, ℎ
𝑂𝑝𝑒 𝑡, ℎ ~ Binomial 𝑁 𝑡, ℎ , 𝑝 𝑜𝑝𝑒 𝑡, ℎ
𝑝𝑠𝑢𝑟𝑣 𝑡, ℎ = inv_logit(𝑏1 𝑡 + 𝑏2 𝑡 𝜇 𝑎𝑔𝑒 𝑡, ℎ + 𝑏3 𝑡 𝜇 𝑠𝑡𝑎𝑔𝑒 𝑡, ℎ
+𝑏4 𝑡 𝑞 𝑚𝑎𝑙𝑒 𝑡, ℎ + 𝑏5 𝑡 𝑞 𝑆𝐶 𝑡, ℎ + 𝑏6 𝑡 𝑝 𝑜𝑝𝑒 𝑡, ℎ + 𝑟𝑠𝑢𝑟𝑣 𝑡, ℎ )
𝑝 𝑜𝑝𝑒 𝑡, ℎ = inv_logit(𝑎1 𝑡 + 𝑎2 𝑡 𝜇 𝑎𝑔𝑒 𝑡, ℎ + 𝑎3 𝑡 𝜇 𝑠𝑡𝑎𝑔𝑒 𝑡, ℎ
+𝑎4 𝑡 𝑞 𝑚𝑎𝑙𝑒 𝑡, ℎ + 𝑎5 𝑡 𝑞 𝑆𝐶 𝑡, ℎ + 𝑟𝑜𝑝𝑒 𝑡, ℎ )
𝑟𝑠 𝑢𝑟𝑣 𝑡, ℎ ~ Normal 0, 𝜎𝑟𝑠𝑢𝑟𝑣
𝑟𝑜 𝑝𝑒 𝑡, ℎ ~ Normal 0, 𝜎𝑟 𝑜𝑝𝑒
38
- 44. 復習: 知りたいこと
• すべての病院の 平均年齢を 60 に固定
平均進行度を ステージII に固定
男性割合を 0.5 に固定
• 各病院の生存確率・手術確率はどうなる?
※ とにかく揃えればよいので, 仮に平均年齢を50・平均進行度
をステージIなどに固定してもよい.
• 生存確率は全体的に高い方へ少しずれるが病院のランキングは不変.
44
- 49. 手術率 vs 生存率 49
• 胃癌はほとんど変わ
らない
• その他の癌は, 手術
率が高いと生存率
が数%程度向上
XXXXXXX