통계 분석 방법

이론과 하이라이트 히스토리를 확인 할 수 있어요.

의학 논문에서 통계학이 어떻게 사용되는지 이해하려면 그 깊이가 끝이 없으나, 다행히도 현재까지 국시와 임종평에서는 어떤 형태의 데이터를 분석할 때 어떤 종류의 통계적 검정방법이 필요한지에 대해 출제되고 있다. 통계적 변수가 정규성과 연속성에 따라 어떻게 분류되는지 명확히 이해하고 있는 것이 통계적 검정방법을 선택하는 데 있어서 첫걸음이며, 통계학에 사전 지식을 갖고 있지 않다면 나머지는 단순 암기의 영역이다.

1. 통계학적 변수의 정의와 분류

1) 설명변수와 결과변수

(1) 설명변수(explanatory variable): “독립변수”

• 두 변수간의 관계에서 영향을 주는 변수

(2) 결과변수(response variable): “종속변수”

• 두 변수간의 관계에서 영향을 받는 변수

(3) 독립적/의존적 구조

• 의존적 구조: 짝짓기가 된 자료, 동일한 개인에 대한 반복측정 자료 등

2) 연속성에 따른 분류(continuity)

(1) 범주형 변수 (이산형 변수, categorical, discrete)

① 명목형(nominal): 범주 간 대소비교 불가능

ex) 성별, 피부색, DM 유무 등

* 남성 = 0, 여성 = 1과 같은 숫자 코드를 명목형 변수에 부여할 수 있으나, 이 0과 1이 실제로 대소를 의미하는 것은 아니므로 명목형 변수로 보아야 한다.

② 순서형(ordinal): 범주 간 대소비교 가능

ex) 순위, 복용 약 개수 등

(2) 연속형 변수(continuous): 혈압, 혈당, 키 등

• 연속형 변수를 범주화(categorization)해서 범주형 변수로 바꿀 수도 있음

ex) ‘공복혈당’이라는 연속형 변수를 ‘< 100’, ‘100~125’, ‘≥126’으로 범주화시켜 범주형 변수로 변환

* 관찰인년, 생존기간 등의 시간관찰 변수도 존재한다.

3) 정규성(normality)에 따른 분류

(1) 정규분포: 정규성 가정 만족, n > 30

(2) 비정규분포: 한 쪽으로 skewed, n < 10, 순위 데이터

2. 통계분석법의 선택

적절한 통계분석법을 선택하는 데 있어서 매우 다양한 요소들을 고려해야 하지만, 국시 수준에서는 변수의 종류에 따라 어떤 통계분석법을 선택할 것인지만 판단할 수 있으면 된다.

1) 군 간의 차이 확인: 각 군에서 도출된 결과변수만 비교할 때 (univariate analysis)

* ex) DM 환자와 정상인의 혈압 비교 → 설명변수: DM의 유무 / 결과변수: 혈압

명목형 설정변수

독립적 결과변수

연속형3

범주형

시간관찰

정규분포4

비정규분포5

순서형6

명목형7

이분형 × 시간8

군이 2개1

독립 t-검정

Wilcoxon rank-sum 검정, Mann-Whitney U 검정

카이제곱 검정, Fisher의 직접확률검정

Log-rank test

군이 ≥3개2

일원분산분석(ANOVA)

Kruskal-Wallis 검정

카이제곱 검정

1 DM과 정상인의 비교

2 T1DM, T2DM, 정상인의 비교

3 평균 혈압(mmHg)

4 각 군당 100명씩 있음

5 각 군당 15명씩 있음

6 혈압 단계 (정상, 주의혈압, pre-HTN, 1기 HTN, 2기 HTN)

7 고혈압의 유무 (BP < 140/90, BP > 140/90)

8 고혈압이 발병하기까지의 시간

의존적 결과변수

연속형

범주형

정규분포

비정규분포

순서형

명목형

명목형 설명변수 두 군

짝지어진 t-검정

Wilcoxon signed-rank 검정

McNemar 검정

명목형 설명변수 세 군 이상

반복측정 분산분석

Friedman 검정

Cochran Q 검정

몇 가지 검정의 예시

ex1) 독립 t-검정: DM 100명, 정상인 100명의 평균 혈압(mmHg) 비교

ex2) 짝지어진 t-검정: DM 100명의 DM 치료 전과 후의 평균 혈압 비교

ex3) 일원분산분석: T1DM 100명, T2DM 100명, 정상인 100명의 평균 혈압 비교

ex4) 카이제곱 검정: DM 100명, 정상인 100명의 고혈압의 유무(= 고혈압 유병률) 비교

ex5) McNemar 검정: DM 100명의 DM 치료 전과 후의 고혈압 유병률 비교

2) 단순 연관성 평가: 두 변수가 연관성(association)을 띠고 있는지 확인할 때 (bivariate analysis)

변수 1

변수 2

연속형

범주형

정규분포

비정규분포

순서형

명목형

연속형

정규

Pearson 상관

Spearman 상관

분산분석

비정규

Pearson 상관

Spearman 상관

Kruskal-Wallis 검정

범주형

순서형

Spearman 상관

Spearman 상관

Kruskal-Wallis 검정

명목형

분산분석, generalized linear model(GLM)

Kruskal-Wallis 검정

카이제곱검정, Fisher 정확성검정

* ex) Pearson 상관: 연구대상자 200명의 혈당(mg/dL)과 혈압(mmHg)의 상관관계 비교 (scatterplot 사용)

3) 인과적 연관성 평가: 두 변수가 단순 연관성을 넘어 인과성(causality)을 띠고 있는지 확인할 때 (교란변수도 보정 가능) (bivariate analysis)

설명변수

독립적 결과변수

연속형

범주형

시간관찰

정규분포*

순서형

명목형 (이분형)

이분형 × 시간

연속형

정규분포

회귀분석

순차적 로지스틱 회귀분석

로지스틱 회귀분석

콕스회귀분석, 포아송회귀분석

비정규분포

범주형

순서형

회귀분석

명목형

GLM

의존적 결과변수

연속형

범주형

시간관찰

정규분포*

순서형

명목형

이분형 × 시간

설명변수

혼합모형

순차적 조건부 로지스틱 회귀분석, GEE

조건부 로지스틱 회귀분석, GEE

시간의존형 콕스회귀분석

* 비정규분포성을 나타내면 치환하여 정규분표화를 하거나 범주형으로 변환시켜야 한다.

회귀분석(regression analysis)에 대한 간략한 설명

- 좌항에 하나의 결과변수(y), 우항에 여러 종류의 설명변수(x1, x2, …, xn)와 오차항으로 이루어진 등식

- x1~xn 중 x1은 연구에서 초점을 맞추는 설명변수(ex. DM의 유무)이며, 나머지 x2~xn은 결과변수에 영향을 줄 수 있는 다른 변수들(교란변수 포함)이다.

- 회귀분석은 y에 각기 다른 x가 독립적으로 어떤 영향을 끼칠 수 있는지 파악할 수 있기 떄문에, 교란변수를 통제하는 데 유용하다.

- 예를 들어, 혈당(연속형 설명변수)이 혈압(독립적 연속형 결과변수)에 어떤 영향을 미치는지 연구하고 싶다면, 적절한 연구대상자들을 모은 다음 혈당과 혈압을 측정한다. 하지만 연령, 성별, BMI, 지질 수치 등 다양한 인자들이 교란변수로 작용할 수 있다. 이 때 교란변수를 억제하고자 표본추출 단계에서 짝짓기 등의 방법을 사용하는 것은 교란변수가 많을 때 현실적인 어려움이 크다. 따라서 짝짓기는 일부 소수의 교란변수에 대해서만 시행하고, 나머지 교란변수는 혈당, 혈압과 같이 측정해 회귀분석에 포함시키면 된다. 회귀분석 식에서 x1의 계수가 0과 유의미하게 다를 경우 혈당이 혈압 수치에 유의미한 영향을 미친다고 결론지을 수 있다. 이는 설명변수를 ‘혈당’이라는 연속형 변수가 아닌 ‘DM의 유무’라는 범주형 변수로 변환(0 = no DM, 1 = DM)해도 동일하게 적용될 수 있다.

- 로지스틱 회귀분석은 만약 혈압을 연속형 변수로 측정하지 않고 명목형 변수(고혈압의 유무)로 측정했을 때 사용하는 방법으로, 대부분의 연구가 회귀분석보다는 로지스틱 회귀번석을 사용한다. 데이터의 수집 방법이나 분석 방법은 일반 회귀분석과 거의 똑같으며, 회귀분석 식에서 관찰된 x1의 계수를 이용해 계산한 odds ratio(OR)가 1과 유의미하게 다를 경우 혈당이 고혈압의 발생에 유의미한 영향을 미친다고 결론지을 수 있다.

예방의학과 공중보건학 제4판, pp.292-294