SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
예시 
흐름개요 
통계적 접근 
해석방법 
R을 이용한 보건학 통계분석 
3주차 : Multilevel analysis 
김진섭 
서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정 
April 7, 2014 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
목차 
1 예시 
2 흐름개요 
3 통계적 접근 
4 해석방법 
Continuous 
Binomial 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
헷갈리지 말 것. 
ANOVA(one-way,two-way, 사후분석), ANCOVA에 신경쓸 필요 
없다. 
t-test, ANOVA, ANCOVA → regression의 한 종류... 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
예제: T-test VS ANOVA VS regression VS logistic 
regression 
> setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/") 
> a=read.csv("write.csv") 
> t.test(TG~sex,data=a,var.equal=T)$p.value 
[1] 5.681867e-08 
> summary(aov(TG~sex,data=a))[[1]][1,5] 
[1] 5.681867e-08 
> summary(glm(TG~factor(sex),data=a))$coefficient[2,4] 
[1] 5.681867e-08 
> summary(glm(sex~TG,data=a,family=binomial))$coefficient[2,4] 
[1] 1.603398e-07 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
예제: ANCOVA vs Regression 
> summary(aov(TG~BMI+factor(sex),data=a)) 
Df Sum Sq Mean Sq F value Pr(>F) 
BMI 1 426820 426820 62.79 1.76e-14 *** 
factor(sex) 1 97264 97264 14.31 0.000176 *** 
Residuals 458 3113227 6797 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ > summary(glm(TG~BMI+factor(sex),data=a))$coefficients 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -55.57365 31.782668 -1.748552 8.103842e-02 
BMI 8.48269 1.281874 6.617413 1.023522e-10 
factor(sex)1 -42.78491 11.310614 -3.782722 1.756932e-04 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
전형적인 논리전개: continuous 
예: Y- 혈압, individual- BMI,age,sex. Group- 가족 
1 독립성이 깨진다 (가족끼리 관련이 있을 것..) 
2 가족이 혈압의 20%를 설명한다. 
3 혈압에 영향을 끼치는 BMI, age 등의 베타값. 
4 BMI, age 등을 보정한 후에도 가족이 혈압의 10%를 설명한다. 
5 유전? or 공유하는 환경의 영향이 있다. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
전형적인 논리전개: Binomial- Median OR 
예: Y- 고혈압여부, individual- BMI,age,sex. Group- 가족 
1 독립성이 깨진다 (가족끼리 관련이 있을 것..) 
2 임의로 두가족을 골랐을 때 두 가족의 고혈압여부의 Odds 
ratio의 중간값은 2.5이다. 
3 혈압에 영향을 끼치는 BMI, age 등의 OR값. 
4 BMI, age 등을 보정한 후에도 임의의 두 가족을 골랐을 때 
고혈압여부의 OR의 중간값은 1.5이다. 
5 유전? or 공유하는 환경의 영향이 있다. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
데이터 수준의 접근 
SBP=age+sex+BMI+family 
1 age, BMI : 연속변수 → OK!! 
2 sex: 2 그룹 → OK!! 
3 family: 100그룹 넘는데..;; 
4 회귀분석에서 99개의 변수가 추가되는 셈..(ex: family1 VS 
family2, family1 VS family3..) 
5 family가 얼마나 중요한 변수인지 어떻게 표시하냐???;;; 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Remind 
1 Multilevel 분석의 이해를 위해. 
2 OLS → GLS → GEE : semi-parametric 
3 MLE → LMM → GLMM : parametric 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
OLS, GLS, GEE 
Y = Xβ + ϵ (1) 
var (ϵ) = σ2In : 즉 독립 - 그냥 최소제곱추정. 
var (ϵ) = σ2Φ : 즉 독립이 아니라면? 
GY = GXβ + Gϵ (2) 
var (Gϵ) = σ2In : 그후 최소제곱추정: GLS 
GLS의 binomial, poisson 버전이 GEE. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Mixed model 
Y = Xβ + Zγ + ϵ (3) 
var (ϵ) = σ2 
e In 
var (β) = 0, var (γ) = σ2 
uIn : 즉 Z의 효과는 정해져있지 않다. 
σ2 = σ2 
u + σ2 
e (4) 
이것의 Binomial 버전이 GLMM. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Mixed model VS GEE : 공통점 
1 Y 의 독립가정이 깨진다- 쌍둥이, 반복측정, 지역변수 등. 
예-지역변수: 지역이 100개인데 이걸 그냥 지역변수로 회귀분석에 
넣으면???? 
1 변수 1개 넣는것 같지만 실제로는 변수 100개 넣는 셈이다. 
2 모형의 문제.. 
3 그냥 변수의 중요성을 숫자 하나로 표시한다: 지역이 실제로 
관심값의 몇 %를 설명하는가 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Mixed model VS GEE: 차이점 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Mixed model VS GEE: 차이점 
1 GEE : 가족구조 보정만 하면 된다. 관심없음. 
2 Mixed model: 가족마다 베타값구하고 싶지만 가족수가 
100개가 넘어서 포기한다. 단, 가족구조가 얼마나 중요한지는 
알아야겠다. 그리고 대충으로라도 베타값 구해야겠다.(BLUP) 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
예제: LMM 
lmer(formula = TG ~ age + sex + BMI + genecount + (1 | FID), 
data = a) 
Estimate Std. Error t value 
(Intercept) -64.87508809 35.5151689 -1.8266867 
age 0.07433259 0.3289602 0.2259622 
sex -38.79943548 11.2996407 -3.4336875 
BMI 7.99959693 1.2950011 6.1772897 
genecount 19.55490362 6.1945517 3.1567907 
Groups Name Std.Dev. 
FID (Intercept) 38.542 
Residual 71.501 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
예제해석: Intraclass correlation 
1 TG를 age,sex,BMI,genecount로 보정한 후 
2 나머지 부분의 분산을 두 부분으로 나눈다. 
3 나머지분산 = Family가 설명하는 분산 + Error의 분산 
4 38.52 + 71.52 
5 38.52 
38.52+71.52 = 0.225 : ICC 
6 여러가지 보정한 후에도 가족구조가 TG의 22.5%를 설명한다. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
예제: GEE 
(Intercept) age sex BMI genecount 
-63.0665181 0.1441694 -39.0676606 7.8280011 19.8533844 
gee(formula = TG ~ age + sex + BMI + genecount, id = FID, data corstr = "exchangeable") 
Estimate Naive S.E. Naive z Robust S.E. (Intercept) -67.0383013 35.5074038 -1.8880091 35.2098516 -age 0.1358706 0.3308999 0.4106094 0.3913534 sex -39.0532798 11.3072868 -3.4538153 8.1672530 -BMI 8.0470233 1.2961423 6.2084414 1.3778100 genecount 19.2400292 6.1995744 3.1034436 5.9432232 [,1] [,2] [,3] [,4] 
[1,] 1.0000000 0.2595847 0.2595847 0.2595847 
[2,] 0.2595847 1.0000000 0.2595847 0.2595847 
[3,] 0.2595847 0.2595847 1.0000000 0.2595847 
[4,] 0.2595847 0.2595847 김진섭0.25R9을5이8용4한7보1건학.0통0계0분0석000
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
예제: GLMM 
glmer(formula = hyperTG ~ age + sex + BMI + genecount + (1 FID), data = a, family = binomial) 
Estimate Std. Error z value Pr(>|z|) 
(Intercept) -6.69144274 1.48585490 -4.5034295 6.686557e-06 
age 0.01032513 0.01208513 0.8543668 3.929018e-01 
sex -1.44261670 0.60870705 -2.3699688 1.778959e-02 
BMI 0.18440140 0.05045220 3.6549721 2.572100e-04 
genecount 0.23987972 0.23090889 1.0388501 2.988745e-01 
Groups Name Std.Dev. 
FID (Intercept) 1.1158 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
예제해석: 어라??? 
Family의 분산밖에 안나오네;;;; 
1 Binomial변수의 경우 변수를 그냥쓰는게 아니다. (0,1) 
2 Logit 함수를 이용하니까.. 
3 TG처럼 TG의 분산..이라는 말이 없다. 
4 Variance of hyperTG: Probability scale 
5 Variance of Family: Logistic scale- 1.12 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
참고논문 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
해결 1 
Probability scale 분산 지정해주자. 대충 3.29정도 (π2 
3 ) 
1 ICC= 1.122 
1.122+3.292 = 0.1 
2 부정확하지.. 
3 설명도 어색하다. 무엇의 10%를 설명하는가? 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
해결 2:Median OR 
임의로 두 가족 뽑았을 때 위험도 높은 가족 VS 위험도 낮은 
가족의 OR이 얼마나 되냐? 
1 무조건 1이상- 높은 쪽 VS 낮은쪽 
2 MOR=1 : 아무렇게나 두 가족 뽑아도 OR 차이가 없다- 
가족이 설명력이 없다. 
3 MOR 크다 : 가족이 설명력이 높다. 
4 설명이 용이하다. 
√ 
2 × 1.122 × 0.6745) = 3.67 
5 MOR= exp( 
6 임의로 두 가족 뽑았을 때 위험한가족 VS 그렇지 않은가족 
비교하면 OR이 대충 3.67이다. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
GEE 
(Intercept) age sex BMI genecount 
-5.482288956 0.009646267 -1.348154797 0.151819412 0.192508455 
gee(formula = hyperTG ~ age + sex + BMI + genecount, id = FID, 
data = a, family = binomial, corstr = "exchangeable") 
Estimate Naive S.E. Naive z Robust S.E. (Intercept) -5.487666282 1.108553392 -4.9502950 1.13870940 age 0.008623394 0.009958968 0.8658923 0.01084585 sex -1.302197973 0.534211939 -2.4376055 0.52970684 BMI 0.153536213 0.038884663 3.9485031 0.04278953 genecount 0.191966682 0.187054963 1.0262582 0.19338008 [,1] [,2] [,3] [,4] 
[1,] 1.0000000 0.1966609 0.1966609 0.1966609 
[2,] 0.1966609 1.0000000 0.1966609 0.1966609 
[3,] 0.1966609 0.1966609 1.0000000 0.1966609 
[4,] 0.1966609 0.1966609 김진섭0.19R6을6이6용0한9보1건학.0통0계0분0석000
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
참고논문의 main table 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
참고 
Multilevel 강의록 참조. 예방의학교실 홈페이지 자유게시판에 
있음. 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
분석의 실제 
1 R의 Gee와 lme4패키지. 
2 주의!!! binomial LMM 즉 GLMM은 R에서 계산안될수도 
있다. 같은 결과라면 SAS를 믿어야 할 것 
김진섭 R을 이용한 보건학 통계분석
예시 
흐름개요 
통계적 접근 
해석방법 
Continuous 
Binomial 
END 
Email : secondmath85@gmail.com 
Office: (02)880-2473 
H.P: 010-9192-5385 
김진섭 R을 이용한 보건학 통계분석

Contenu connexe

Plus de Jinseob Kim

Plus de Jinseob Kim (18)

Win Above Replacement in Sabermetrics
Win Above Replacement in SabermetricsWin Above Replacement in Sabermetrics
Win Above Replacement in Sabermetrics
 
Regression Basic : MLE
Regression  Basic : MLERegression  Basic : MLE
Regression Basic : MLE
 
iHS calculation in R
iHS calculation in RiHS calculation in R
iHS calculation in R
 
Fst in R
Fst in R Fst in R
Fst in R
 
Selection index population_genetics
Selection index population_geneticsSelection index population_genetics
Selection index population_genetics
 
질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010질병부담계산: Dismod mr gbd2010
질병부담계산: Dismod mr gbd2010
 
DALY & QALY
DALY & QALYDALY & QALY
DALY & QALY
 
Case-crossover study
Case-crossover studyCase-crossover study
Case-crossover study
 
Generalized Additive Model
Generalized Additive Model Generalized Additive Model
Generalized Additive Model
 
Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)Deep Learning by JSKIM (Korean)
Deep Learning by JSKIM (Korean)
 
Machine Learning Introduction
Machine Learning IntroductionMachine Learning Introduction
Machine Learning Introduction
 
Tree advanced
Tree advancedTree advanced
Tree advanced
 
Deep learning by JSKIM
Deep learning by JSKIMDeep learning by JSKIM
Deep learning by JSKIM
 
Main result
Main result Main result
Main result
 
GEE & GLMM in GWAS
GEE & GLMM in GWASGEE & GLMM in GWAS
GEE & GLMM in GWAS
 
Whole Genome Regression using Bayesian Lasso
Whole Genome Regression using Bayesian LassoWhole Genome Regression using Bayesian Lasso
Whole Genome Regression using Bayesian Lasso
 
useR 2014 jskim
useR 2014 jskimuseR 2014 jskim
useR 2014 jskim
 
Think bayes
Think bayesThink bayes
Think bayes
 

Multilevel study

  • 1. 예시 흐름개요 통계적 접근 해석방법 R을 이용한 보건학 통계분석 3주차 : Multilevel analysis 김진섭 서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정 April 7, 2014 김진섭 R을 이용한 보건학 통계분석
  • 2. 예시 흐름개요 통계적 접근 해석방법 목차 1 예시 2 흐름개요 3 통계적 접근 4 해석방법 Continuous Binomial 김진섭 R을 이용한 보건학 통계분석
  • 3. 예시 흐름개요 통계적 접근 해석방법 김진섭 R을 이용한 보건학 통계분석
  • 4. 예시 흐름개요 통계적 접근 해석방법 김진섭 R을 이용한 보건학 통계분석
  • 5. 예시 흐름개요 통계적 접근 해석방법 김진섭 R을 이용한 보건학 통계분석
  • 6. 예시 흐름개요 통계적 접근 해석방법 헷갈리지 말 것. ANOVA(one-way,two-way, 사후분석), ANCOVA에 신경쓸 필요 없다. t-test, ANOVA, ANCOVA → regression의 한 종류... 김진섭 R을 이용한 보건학 통계분석
  • 7. 예시 흐름개요 통계적 접근 해석방법 예제: T-test VS ANOVA VS regression VS logistic regression > setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/") > a=read.csv("write.csv") > t.test(TG~sex,data=a,var.equal=T)$p.value [1] 5.681867e-08 > summary(aov(TG~sex,data=a))[[1]][1,5] [1] 5.681867e-08 > summary(glm(TG~factor(sex),data=a))$coefficient[2,4] [1] 5.681867e-08 > summary(glm(sex~TG,data=a,family=binomial))$coefficient[2,4] [1] 1.603398e-07 김진섭 R을 이용한 보건학 통계분석
  • 8. 예시 흐름개요 통계적 접근 해석방법 예제: ANCOVA vs Regression > summary(aov(TG~BMI+factor(sex),data=a)) Df Sum Sq Mean Sq F value Pr(>F) BMI 1 426820 426820 62.79 1.76e-14 *** factor(sex) 1 97264 97264 14.31 0.000176 *** Residuals 458 3113227 6797 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ > summary(glm(TG~BMI+factor(sex),data=a))$coefficients Estimate Std. Error t value Pr(>|t|) (Intercept) -55.57365 31.782668 -1.748552 8.103842e-02 BMI 8.48269 1.281874 6.617413 1.023522e-10 factor(sex)1 -42.78491 11.310614 -3.782722 1.756932e-04 김진섭 R을 이용한 보건학 통계분석
  • 9. 예시 흐름개요 통계적 접근 해석방법 전형적인 논리전개: continuous 예: Y- 혈압, individual- BMI,age,sex. Group- 가족 1 독립성이 깨진다 (가족끼리 관련이 있을 것..) 2 가족이 혈압의 20%를 설명한다. 3 혈압에 영향을 끼치는 BMI, age 등의 베타값. 4 BMI, age 등을 보정한 후에도 가족이 혈압의 10%를 설명한다. 5 유전? or 공유하는 환경의 영향이 있다. 김진섭 R을 이용한 보건학 통계분석
  • 10. 예시 흐름개요 통계적 접근 해석방법 전형적인 논리전개: Binomial- Median OR 예: Y- 고혈압여부, individual- BMI,age,sex. Group- 가족 1 독립성이 깨진다 (가족끼리 관련이 있을 것..) 2 임의로 두가족을 골랐을 때 두 가족의 고혈압여부의 Odds ratio의 중간값은 2.5이다. 3 혈압에 영향을 끼치는 BMI, age 등의 OR값. 4 BMI, age 등을 보정한 후에도 임의의 두 가족을 골랐을 때 고혈압여부의 OR의 중간값은 1.5이다. 5 유전? or 공유하는 환경의 영향이 있다. 김진섭 R을 이용한 보건학 통계분석
  • 11. 예시 흐름개요 통계적 접근 해석방법 데이터 수준의 접근 SBP=age+sex+BMI+family 1 age, BMI : 연속변수 → OK!! 2 sex: 2 그룹 → OK!! 3 family: 100그룹 넘는데..;; 4 회귀분석에서 99개의 변수가 추가되는 셈..(ex: family1 VS family2, family1 VS family3..) 5 family가 얼마나 중요한 변수인지 어떻게 표시하냐???;;; 김진섭 R을 이용한 보건학 통계분석
  • 12. 예시 흐름개요 통계적 접근 해석방법 Remind 1 Multilevel 분석의 이해를 위해. 2 OLS → GLS → GEE : semi-parametric 3 MLE → LMM → GLMM : parametric 김진섭 R을 이용한 보건학 통계분석
  • 13. 예시 흐름개요 통계적 접근 해석방법 OLS, GLS, GEE Y = Xβ + ϵ (1) var (ϵ) = σ2In : 즉 독립 - 그냥 최소제곱추정. var (ϵ) = σ2Φ : 즉 독립이 아니라면? GY = GXβ + Gϵ (2) var (Gϵ) = σ2In : 그후 최소제곱추정: GLS GLS의 binomial, poisson 버전이 GEE. 김진섭 R을 이용한 보건학 통계분석
  • 14. 예시 흐름개요 통계적 접근 해석방법 Mixed model Y = Xβ + Zγ + ϵ (3) var (ϵ) = σ2 e In var (β) = 0, var (γ) = σ2 uIn : 즉 Z의 효과는 정해져있지 않다. σ2 = σ2 u + σ2 e (4) 이것의 Binomial 버전이 GLMM. 김진섭 R을 이용한 보건학 통계분석
  • 15. 예시 흐름개요 통계적 접근 해석방법 Mixed model VS GEE : 공통점 1 Y 의 독립가정이 깨진다- 쌍둥이, 반복측정, 지역변수 등. 예-지역변수: 지역이 100개인데 이걸 그냥 지역변수로 회귀분석에 넣으면???? 1 변수 1개 넣는것 같지만 실제로는 변수 100개 넣는 셈이다. 2 모형의 문제.. 3 그냥 변수의 중요성을 숫자 하나로 표시한다: 지역이 실제로 관심값의 몇 %를 설명하는가 김진섭 R을 이용한 보건학 통계분석
  • 16. 예시 흐름개요 통계적 접근 해석방법 Mixed model VS GEE: 차이점 김진섭 R을 이용한 보건학 통계분석
  • 17. 예시 흐름개요 통계적 접근 해석방법 Mixed model VS GEE: 차이점 1 GEE : 가족구조 보정만 하면 된다. 관심없음. 2 Mixed model: 가족마다 베타값구하고 싶지만 가족수가 100개가 넘어서 포기한다. 단, 가족구조가 얼마나 중요한지는 알아야겠다. 그리고 대충으로라도 베타값 구해야겠다.(BLUP) 김진섭 R을 이용한 보건학 통계분석
  • 18. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 예제: LMM lmer(formula = TG ~ age + sex + BMI + genecount + (1 | FID), data = a) Estimate Std. Error t value (Intercept) -64.87508809 35.5151689 -1.8266867 age 0.07433259 0.3289602 0.2259622 sex -38.79943548 11.2996407 -3.4336875 BMI 7.99959693 1.2950011 6.1772897 genecount 19.55490362 6.1945517 3.1567907 Groups Name Std.Dev. FID (Intercept) 38.542 Residual 71.501 김진섭 R을 이용한 보건학 통계분석
  • 19. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 예제해석: Intraclass correlation 1 TG를 age,sex,BMI,genecount로 보정한 후 2 나머지 부분의 분산을 두 부분으로 나눈다. 3 나머지분산 = Family가 설명하는 분산 + Error의 분산 4 38.52 + 71.52 5 38.52 38.52+71.52 = 0.225 : ICC 6 여러가지 보정한 후에도 가족구조가 TG의 22.5%를 설명한다. 김진섭 R을 이용한 보건학 통계분석
  • 20. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 예제: GEE (Intercept) age sex BMI genecount -63.0665181 0.1441694 -39.0676606 7.8280011 19.8533844 gee(formula = TG ~ age + sex + BMI + genecount, id = FID, data corstr = "exchangeable") Estimate Naive S.E. Naive z Robust S.E. (Intercept) -67.0383013 35.5074038 -1.8880091 35.2098516 -age 0.1358706 0.3308999 0.4106094 0.3913534 sex -39.0532798 11.3072868 -3.4538153 8.1672530 -BMI 8.0470233 1.2961423 6.2084414 1.3778100 genecount 19.2400292 6.1995744 3.1034436 5.9432232 [,1] [,2] [,3] [,4] [1,] 1.0000000 0.2595847 0.2595847 0.2595847 [2,] 0.2595847 1.0000000 0.2595847 0.2595847 [3,] 0.2595847 0.2595847 1.0000000 0.2595847 [4,] 0.2595847 0.2595847 김진섭0.25R9을5이8용4한7보1건학.0통0계0분0석000
  • 21. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 예제: GLMM glmer(formula = hyperTG ~ age + sex + BMI + genecount + (1 FID), data = a, family = binomial) Estimate Std. Error z value Pr(>|z|) (Intercept) -6.69144274 1.48585490 -4.5034295 6.686557e-06 age 0.01032513 0.01208513 0.8543668 3.929018e-01 sex -1.44261670 0.60870705 -2.3699688 1.778959e-02 BMI 0.18440140 0.05045220 3.6549721 2.572100e-04 genecount 0.23987972 0.23090889 1.0388501 2.988745e-01 Groups Name Std.Dev. FID (Intercept) 1.1158 김진섭 R을 이용한 보건학 통계분석
  • 22. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 예제해석: 어라??? Family의 분산밖에 안나오네;;;; 1 Binomial변수의 경우 변수를 그냥쓰는게 아니다. (0,1) 2 Logit 함수를 이용하니까.. 3 TG처럼 TG의 분산..이라는 말이 없다. 4 Variance of hyperTG: Probability scale 5 Variance of Family: Logistic scale- 1.12 김진섭 R을 이용한 보건학 통계분석
  • 23. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 참고논문 김진섭 R을 이용한 보건학 통계분석
  • 24. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 해결 1 Probability scale 분산 지정해주자. 대충 3.29정도 (π2 3 ) 1 ICC= 1.122 1.122+3.292 = 0.1 2 부정확하지.. 3 설명도 어색하다. 무엇의 10%를 설명하는가? 김진섭 R을 이용한 보건학 통계분석
  • 25. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 해결 2:Median OR 임의로 두 가족 뽑았을 때 위험도 높은 가족 VS 위험도 낮은 가족의 OR이 얼마나 되냐? 1 무조건 1이상- 높은 쪽 VS 낮은쪽 2 MOR=1 : 아무렇게나 두 가족 뽑아도 OR 차이가 없다- 가족이 설명력이 없다. 3 MOR 크다 : 가족이 설명력이 높다. 4 설명이 용이하다. √ 2 × 1.122 × 0.6745) = 3.67 5 MOR= exp( 6 임의로 두 가족 뽑았을 때 위험한가족 VS 그렇지 않은가족 비교하면 OR이 대충 3.67이다. 김진섭 R을 이용한 보건학 통계분석
  • 26. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial GEE (Intercept) age sex BMI genecount -5.482288956 0.009646267 -1.348154797 0.151819412 0.192508455 gee(formula = hyperTG ~ age + sex + BMI + genecount, id = FID, data = a, family = binomial, corstr = "exchangeable") Estimate Naive S.E. Naive z Robust S.E. (Intercept) -5.487666282 1.108553392 -4.9502950 1.13870940 age 0.008623394 0.009958968 0.8658923 0.01084585 sex -1.302197973 0.534211939 -2.4376055 0.52970684 BMI 0.153536213 0.038884663 3.9485031 0.04278953 genecount 0.191966682 0.187054963 1.0262582 0.19338008 [,1] [,2] [,3] [,4] [1,] 1.0000000 0.1966609 0.1966609 0.1966609 [2,] 0.1966609 1.0000000 0.1966609 0.1966609 [3,] 0.1966609 0.1966609 1.0000000 0.1966609 [4,] 0.1966609 0.1966609 김진섭0.19R6을6이6용0한9보1건학.0통0계0분0석000
  • 27. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 참고논문의 main table 김진섭 R을 이용한 보건학 통계분석
  • 28. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 참고 Multilevel 강의록 참조. 예방의학교실 홈페이지 자유게시판에 있음. 김진섭 R을 이용한 보건학 통계분석
  • 29. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial 분석의 실제 1 R의 Gee와 lme4패키지. 2 주의!!! binomial LMM 즉 GLMM은 R에서 계산안될수도 있다. 같은 결과라면 SAS를 믿어야 할 것 김진섭 R을 이용한 보건학 통계분석
  • 30. 예시 흐름개요 통계적 접근 해석방법 Continuous Binomial END Email : secondmath85@gmail.com Office: (02)880-2473 H.P: 010-9192-5385 김진섭 R을 이용한 보건학 통계분석