6. 예시
흐름개요
통계적 접근
해석방법
헷갈리지 말 것.
ANOVA(one-way,two-way, 사후분석), ANCOVA에 신경쓸 필요
없다.
t-test, ANOVA, ANCOVA → regression의 한 종류...
김진섭 R을 이용한 보건학 통계분석
7. 예시
흐름개요
통계적 접근
해석방법
예제: T-test VS ANOVA VS regression VS logistic
regression
> setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/")
> a=read.csv("write.csv")
> t.test(TG~sex,data=a,var.equal=T)$p.value
[1] 5.681867e-08
> summary(aov(TG~sex,data=a))[[1]][1,5]
[1] 5.681867e-08
> summary(glm(TG~factor(sex),data=a))$coefficient[2,4]
[1] 5.681867e-08
> summary(glm(sex~TG,data=a,family=binomial))$coefficient[2,4]
[1] 1.603398e-07
김진섭 R을 이용한 보건학 통계분석
8. 예시
흐름개요
통계적 접근
해석방법
예제: ANCOVA vs Regression
> summary(aov(TG~BMI+factor(sex),data=a))
Df Sum Sq Mean Sq F value Pr(>F)
BMI 1 426820 426820 62.79 1.76e-14 ***
factor(sex) 1 97264 97264 14.31 0.000176 ***
Residuals 458 3113227 6797
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ > summary(glm(TG~BMI+factor(sex),data=a))$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) -55.57365 31.782668 -1.748552 8.103842e-02
BMI 8.48269 1.281874 6.617413 1.023522e-10
factor(sex)1 -42.78491 11.310614 -3.782722 1.756932e-04
김진섭 R을 이용한 보건학 통계분석
9. 예시
흐름개요
통계적 접근
해석방법
전형적인 논리전개: continuous
예: Y- 혈압, individual- BMI,age,sex. Group- 가족
1 독립성이 깨진다 (가족끼리 관련이 있을 것..)
2 가족이 혈압의 20%를 설명한다.
3 혈압에 영향을 끼치는 BMI, age 등의 베타값.
4 BMI, age 등을 보정한 후에도 가족이 혈압의 10%를 설명한다.
5 유전? or 공유하는 환경의 영향이 있다.
김진섭 R을 이용한 보건학 통계분석
10. 예시
흐름개요
통계적 접근
해석방법
전형적인 논리전개: Binomial- Median OR
예: Y- 고혈압여부, individual- BMI,age,sex. Group- 가족
1 독립성이 깨진다 (가족끼리 관련이 있을 것..)
2 임의로 두가족을 골랐을 때 두 가족의 고혈압여부의 Odds
ratio의 중간값은 2.5이다.
3 혈압에 영향을 끼치는 BMI, age 등의 OR값.
4 BMI, age 등을 보정한 후에도 임의의 두 가족을 골랐을 때
고혈압여부의 OR의 중간값은 1.5이다.
5 유전? or 공유하는 환경의 영향이 있다.
김진섭 R을 이용한 보건학 통계분석
11. 예시
흐름개요
통계적 접근
해석방법
데이터 수준의 접근
SBP=age+sex+BMI+family
1 age, BMI : 연속변수 → OK!!
2 sex: 2 그룹 → OK!!
3 family: 100그룹 넘는데..;;
4 회귀분석에서 99개의 변수가 추가되는 셈..(ex: family1 VS
family2, family1 VS family3..)
5 family가 얼마나 중요한 변수인지 어떻게 표시하냐???;;;
김진섭 R을 이용한 보건학 통계분석
13. 예시
흐름개요
통계적 접근
해석방법
OLS, GLS, GEE
Y = Xβ + ϵ (1)
var (ϵ) = σ2In : 즉 독립 - 그냥 최소제곱추정.
var (ϵ) = σ2Φ : 즉 독립이 아니라면?
GY = GXβ + Gϵ (2)
var (Gϵ) = σ2In : 그후 최소제곱추정: GLS
GLS의 binomial, poisson 버전이 GEE.
김진섭 R을 이용한 보건학 통계분석
14. 예시
흐름개요
통계적 접근
해석방법
Mixed model
Y = Xβ + Zγ + ϵ (3)
var (ϵ) = σ2
e In
var (β) = 0, var (γ) = σ2
uIn : 즉 Z의 효과는 정해져있지 않다.
σ2 = σ2
u + σ2
e (4)
이것의 Binomial 버전이 GLMM.
김진섭 R을 이용한 보건학 통계분석
15. 예시
흐름개요
통계적 접근
해석방법
Mixed model VS GEE : 공통점
1 Y 의 독립가정이 깨진다- 쌍둥이, 반복측정, 지역변수 등.
예-지역변수: 지역이 100개인데 이걸 그냥 지역변수로 회귀분석에
넣으면????
1 변수 1개 넣는것 같지만 실제로는 변수 100개 넣는 셈이다.
2 모형의 문제..
3 그냥 변수의 중요성을 숫자 하나로 표시한다: 지역이 실제로
관심값의 몇 %를 설명하는가
김진섭 R을 이용한 보건학 통계분석
16. 예시
흐름개요
통계적 접근
해석방법
Mixed model VS GEE: 차이점
김진섭 R을 이용한 보건학 통계분석
17. 예시
흐름개요
통계적 접근
해석방법
Mixed model VS GEE: 차이점
1 GEE : 가족구조 보정만 하면 된다. 관심없음.
2 Mixed model: 가족마다 베타값구하고 싶지만 가족수가
100개가 넘어서 포기한다. 단, 가족구조가 얼마나 중요한지는
알아야겠다. 그리고 대충으로라도 베타값 구해야겠다.(BLUP)
김진섭 R을 이용한 보건학 통계분석
18. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
예제: LMM
lmer(formula = TG ~ age + sex + BMI + genecount + (1 | FID),
data = a)
Estimate Std. Error t value
(Intercept) -64.87508809 35.5151689 -1.8266867
age 0.07433259 0.3289602 0.2259622
sex -38.79943548 11.2996407 -3.4336875
BMI 7.99959693 1.2950011 6.1772897
genecount 19.55490362 6.1945517 3.1567907
Groups Name Std.Dev.
FID (Intercept) 38.542
Residual 71.501
김진섭 R을 이용한 보건학 통계분석
19. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
예제해석: Intraclass correlation
1 TG를 age,sex,BMI,genecount로 보정한 후
2 나머지 부분의 분산을 두 부분으로 나눈다.
3 나머지분산 = Family가 설명하는 분산 + Error의 분산
4 38.52 + 71.52
5 38.52
38.52+71.52 = 0.225 : ICC
6 여러가지 보정한 후에도 가족구조가 TG의 22.5%를 설명한다.
김진섭 R을 이용한 보건학 통계분석
21. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
예제: GLMM
glmer(formula = hyperTG ~ age + sex + BMI + genecount + (1 FID), data = a, family = binomial)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.69144274 1.48585490 -4.5034295 6.686557e-06
age 0.01032513 0.01208513 0.8543668 3.929018e-01
sex -1.44261670 0.60870705 -2.3699688 1.778959e-02
BMI 0.18440140 0.05045220 3.6549721 2.572100e-04
genecount 0.23987972 0.23090889 1.0388501 2.988745e-01
Groups Name Std.Dev.
FID (Intercept) 1.1158
김진섭 R을 이용한 보건학 통계분석
22. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
예제해석: 어라???
Family의 분산밖에 안나오네;;;;
1 Binomial변수의 경우 변수를 그냥쓰는게 아니다. (0,1)
2 Logit 함수를 이용하니까..
3 TG처럼 TG의 분산..이라는 말이 없다.
4 Variance of hyperTG: Probability scale
5 Variance of Family: Logistic scale- 1.12
김진섭 R을 이용한 보건학 통계분석
23. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
참고논문
김진섭 R을 이용한 보건학 통계분석
24. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
해결 1
Probability scale 분산 지정해주자. 대충 3.29정도 (π2
3 )
1 ICC= 1.122
1.122+3.292 = 0.1
2 부정확하지..
3 설명도 어색하다. 무엇의 10%를 설명하는가?
김진섭 R을 이용한 보건학 통계분석
25. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
해결 2:Median OR
임의로 두 가족 뽑았을 때 위험도 높은 가족 VS 위험도 낮은
가족의 OR이 얼마나 되냐?
1 무조건 1이상- 높은 쪽 VS 낮은쪽
2 MOR=1 : 아무렇게나 두 가족 뽑아도 OR 차이가 없다-
가족이 설명력이 없다.
3 MOR 크다 : 가족이 설명력이 높다.
4 설명이 용이하다.
√
2 × 1.122 × 0.6745) = 3.67
5 MOR= exp(
6 임의로 두 가족 뽑았을 때 위험한가족 VS 그렇지 않은가족
비교하면 OR이 대충 3.67이다.
김진섭 R을 이용한 보건학 통계분석
26. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
GEE
(Intercept) age sex BMI genecount
-5.482288956 0.009646267 -1.348154797 0.151819412 0.192508455
gee(formula = hyperTG ~ age + sex + BMI + genecount, id = FID,
data = a, family = binomial, corstr = "exchangeable")
Estimate Naive S.E. Naive z Robust S.E. (Intercept) -5.487666282 1.108553392 -4.9502950 1.13870940 age 0.008623394 0.009958968 0.8658923 0.01084585 sex -1.302197973 0.534211939 -2.4376055 0.52970684 BMI 0.153536213 0.038884663 3.9485031 0.04278953 genecount 0.191966682 0.187054963 1.0262582 0.19338008 [,1] [,2] [,3] [,4]
[1,] 1.0000000 0.1966609 0.1966609 0.1966609
[2,] 0.1966609 1.0000000 0.1966609 0.1966609
[3,] 0.1966609 0.1966609 1.0000000 0.1966609
[4,] 0.1966609 0.1966609 김진섭0.19R6을6이6용0한9보1건학.0통0계0분0석000
27. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
참고논문의 main table
김진섭 R을 이용한 보건학 통계분석
28. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
참고
Multilevel 강의록 참조. 예방의학교실 홈페이지 자유게시판에
있음.
김진섭 R을 이용한 보건학 통계분석
29. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
분석의 실제
1 R의 Gee와 lme4패키지.
2 주의!!! binomial LMM 즉 GLMM은 R에서 계산안될수도
있다. 같은 결과라면 SAS를 믿어야 할 것
김진섭 R을 이용한 보건학 통계분석
30. 예시
흐름개요
통계적 접근
해석방법
Continuous
Binomial
END
Email : secondmath85@gmail.com
Office: (02)880-2473
H.P: 010-9192-5385
김진섭 R을 이용한 보건학 통계분석