1 개요
약물역학의 cohort study는 일반적으로:
- 노출군(exposed group): 특정 요인에 노출된 사람들과,
- 비노출군(control group): 특정 요인의 노출되지 않은 사람들을 대상으로,
- 일정기간 추적(follow-up)한 데이터를 활용하여,
- 특정 결과(outcome)의 발생여부를 비교한다.
- 발생률, 위험비, 오즈비 등
그런데 경제학을 공부한 사람에게는 다음의 질문이 자연스럽게 따라붙는다.
노출 이전부터 원래 높았던거 아니야?
좀 더 풀어서 쓰면,
exposure가 무작위 배정(RCT)되지 않았기 때문에, outcome에 대한 exposure의 인과효과를 확신할 수 없는거 아니야?
다음 두 사례를 생각해보자.
스테로이드 투여(exposure)가 고혈압 유병률을 높인다는 연구결과가 있다. 하지만 노출군은 스테로이드 투여 이전부터 이미 고혈압 유병률이 높았을 수도 있다(만성염증과 고혈압 등). 스테로이드 투여가 무작위로 배정되지 않았기 때문에, exposure-outcome의 인과관계를 확신할 수 없다.
쓰레기 소각장 설치가 집값을 떨어뜨린다는 연구결과가 있다. 설치지역은 비설치지역보다 집값이 낮은 것으로 나타났다. 하지만 쓰레기 소각장 설치 지역은 주사위 던지기로 정해지지 않는다. 설치지역의 집값이 원래 낮았던 것 아닐까?
방법론을 공부할 때 반드시 만나는 내생성(endogeneity) 문제다. 약물역학은 이를 교란요인(confounder) 문제라고 부른다. 이 글에서 다루는 주제는, 이 내생성 문제를 해결하기 위한 경제학의 시도와 약물역학의 시도가 어떤 지점에서 다른 이름으로 만난다는 것이다. 경제학의 고전적인 방법론인 패널회귀와 약물역학의 SCCS(self-control case series)이 그렇다.
2 문제제기
2.1 내생성
다음의 연구모델을 가정해보자.
\[ outcome_{it} = \beta_{0} + \beta_{1}~exposure_{it} + \epsilon_{it} \] \(i\)는 개인, \(t\)는 관측시점을 의미한다.
여기서 outcome에 대한 exposure의 인과효과를 확신하기 위해서는 오차항 \(\epsilon_{i}\)과 노출 여부를 나타내는 변수 \(exposure_{i}\) 간에 아무 관계도 없어야 한다. 즉, 노출여부와 오차항은 서로 독립이어야 한다. 고급스럽게 말하자면 \(E(\epsilon_{i}~|~exposure_{i}) = 0\) 이어야 한다. 이 독립성 가정이 성립하지 않으면 \(\beta_{1}\)을 확신할 수 없다. 즉, 노출과 결과 간의 관계를 인과적으로 해석할 수 없다.
하지만 현실에서는 이 독립성 가정이 성립하기 어렵다. 스테로이드 투여가 필요한 상황은 무작위로 발생하지 않는다. 국토부는 쓰레기 소각장을 설치할 지역을 주사위 던지기로 결정하지 않는다.
2.2 극복하기 위한 방법론적 시도
좀 더 자세히 알아보자. 위 두 사례를 해결하는 가장 정확한 방법은 멀티버스를 활용하는 것이다. 다시 위 사례로 돌아가보자.
스테로이드 투여가 고혈압 발생에 미치는 순수한 영향만을 확인하기 위해서는, 스테로이드 투여를 제외한 다른 모든 조건(시간대까지!)이 다 같아야 한다. 즉, 스테로이드를 투여한 나와 스테로이드를 투여하지 않은 나의 혈압을 비교해야 한다.
소각장을 설치한 유니버스(지구-1)와 그렇지 않은 유니버스(지구-2)의 집값을 비교해야 한다.
한 가지 더 말해보자면, 대학원에 가면 월급이 오를까? 대학원에 간 나와 대학원에 가지 않은 나를 비교하는 것이 옳은 비교다.
그러나 멀티버스는 아직까진 이용불가능한 것 같다. 2025-11-11 기준으로 아직 불가능하다.1 다행히도 멀티버스가 없더라도 무작위배정을 활용한다면 효과의 크기를 받아들일 수 있다. 그러나 이것은 가능하지도 않고, 윤리적으로도 문제가 있다.
- 고혈압 발생을 무작위로 정할 수 있을까?
- 쓰레기 소각장 설치지역을 주사위던지기로 정하는 것이 윤리적으로 옳을까?
이제 통계학적 분석방법론이 나설차례다. 경제학, 약물역학과 같이 model-based method를 활용하는 학문들은 교랸일반적으로 아래와 같은 방법들을 고려하는 것이 사실상 업계 표준이다:
다항회귀분석
노출변수 외의 변수들(covariate)을 다항회귀식에 추가하여, \(E(\epsilon_{i}~|~exposure_{i}) = 0\)를 조건부로 만족시키고자 하는 방법. 예를 들어 “65세 이상이고, 남성이고, BMI지수가 비슷하고, 동반질환은 어떻고, 복합상병은 어떻고…” 등 covariate을 통해 하위집단으로 쪼갯을 때에는 exposure의 효과가 동일하다고 가정하는 것이다.매칭법(PS matching 등)
노출군과 성별, 연령, 동반질환 등 전반적으로 매우 비슷한 특징을 가졌지만, 결코 노출군은 아닌 환자를 매칭시켜서 비교한다. 다항회귀분석과 비슷해보이지만 다르다. 그러나 그 한계는 다항회귀분석의 한계와 유사하다.2 종류와 한계 등 자세한 내용은 여기를 참고.
FE(fixed effect) 또는 SCCS(self-controlled case series)
시간이 지나도 변하지 않는 요인이 있다. 성별, 출생지, 유전적 요인, 만성질환 여부 등이 그렇다. 이와 같이 covariate이 outcome에 미치는 영향이 시간이 지나도 변하지 않고 고정되어 있다면, 이 영향들은 통계적으로 제거할 수 있다.도구변수법(instrmental variable)
exposure에는 영향을 주지만, outcome과는 직접적인 관련이 없는 변수를 찾아서, 이 변수를 통해 confounder를 제거하는 방식. 어려운 방법이고, 도구변수로 투입한 변수가 정말 위의 조건을 만족하는지 그 타당성에 대해 논문심사위원과 갑론을박이 이어진다.
| 구분 | 개인단위 균형 | 비관측변수 통제 | 적용 가능성 | 활용 용이성 | 한줄평 |
|---|---|---|---|---|---|
| 다항회귀분석법 | . | . | . | . | 일종의 거친 비교방법 |
| 매칭법 | ✅️ | . | . | . | 섬세한 비교 |
| FE or SCCS | ✅️ | ✅️ | ✅️ | . | category 변수는 사용할 수 없다 |
| 도구변수법(IV) | ✅️ | ✅️ | . | ✅️ | IV에 대한 타당성 입증이 어렵고, 애초에 찾기도 어렵다 |
이 글에서는 교란요인을 극복하기 위한 경제학(FE)의 방법과 약물역학(SCCS)의 방법이 어떤 아이디어를 공유하고 있는지 간략히 다루고자 한다.
3 FE vs. SCCS
3.1 FE: Fixed Effects
일반적인 FE의 기본형은 다음과 같다:
\[ Y_{it} = \beta X_{it} + \alpha_{i} + \epsilon_{it} \]
\(i\)는 개인, \(t\)는 시간, \(X\)는 설명변수, \(Y\)는 결과변수, \(\alpha\)는 Y에 영향을 미치는 교란요소들 중 시간에 따라 변하지 않는 요인들을 의미한다. 시간이 지나도 변하지 않으므로 아랫첨자에 \(t\)가 없다.3
이때 모든 시점에서 결과변수의 평균 \(\bar{Y_{i}}\)는 다음과 같이 계산된다:
\[ \begin{align} Y_{it} &= \beta X_{it} + \alpha_{it} + \epsilon_{it}\\[1ex] &= \frac{1}{T_i} \sum_t (\beta X_{it} + \alpha_i + \epsilon_{it}) \\[1ex] &= \beta \bar{X_i} + \alpha_i + \bar{\epsilon_i}~(\because \bar{\alpha_i} = \alpha_i) \end{align} \]
그리고 특정 시점(\(t\))에서의 결과변수 추정값 \(\hat{Y_{it}}\)은 다음과 같다:
\[ \hat{Y_{it}} = \beta \hat{X_{it}} + \alpha_{i} + \epsilon_{it} \]
이 두 식을 차분하는 것이 FE의 핵심 아이디어다. 차분을 통해 시간이 지나도 변하지 않는 변수인 \(\alpha_{i}\)는 추정식에서 사라진다. 다시 말해, \(X\)와 \(Y\) 사이에 영향을 미치는 변수(미관측변수를 포함한다!)의 영향을 제거하는 것이다:
\[ \begin{align} \hat{Y_{it}} - \bar{Y_{i}} &= (\beta \hat{X_{it}} + \alpha_{i} + \epsilon_{it}) - (\beta \bar{X_i} + \alpha_i + \bar{\epsilon_i})\\[1ex] &=\beta( \hat{X_{it}} - \bar{X_{i}}) + ( \alpha_{i} - \alpha_{i}) + (\epsilon_{it}-\bar{\epsilon_i})\\[1ex] \Rightarrow \quad \tilde{Y_{it}} &= \beta \tilde{X_{it}} + \tilde{\epsilon_{it}} \end{align} \]
최종적으로 남게된 FE 모델의 최종 추정치가 된다. 이렇게 얻어진 추정치는 시불변 비관측변수로 인한 내생성 혹은 교란요인을 제거한 추정치가 된다.
FE 모델은 개체 내 시간에 따라 변하지 않는 요인 \(\alpha_{i}\)을 제거하고, 동일한 개인 내부에서의 변화(within-person)만을 이용해 \(X\)가 \(Y\)에 미치는 인과효과를 추정한다. 즉, 각 개인이 자기 자신을 통제집단으로 사용하는 셈이다. 이 Self-Controlled 아이디어는 약물역학의 SCCS 설계와 정확히 같은 아이디어다.
3.2 SCCS: Self-Controlled case series
SCCS(Self-Controlled Case Series)는 약물역학에서 고안된 연구설계로, 본질적으로 “한 개인이 자기 자신을 통제집단으로 사용하는” 연구방법이다. 즉, 동일한 개인의 노출 전·후 기간을 비교함으로써, 개인 간 차이로부터 오는 교란(confounding)을 제거한다.
시점 \(t\)에서 개인 \(i\)의 outcome 발생률(i. e., 고혈압 발생률)을 \(\lambda_{it}\)라고 하자. 그리고 현재 위험에 노출되었는지(i. e., 스테로이드 투여) 여부를 나타내는 변수를 \(exposure_{it}\)라고 하자(\(0\) 또는 \(1\)의 값을 갖는다). \(\alpha_{i}\)는 앞과 마찬가지로 개인의 변화하지 않는 특성이다.
SCCS의 기본 모형은 다음과 같다:
\[ \begin{align} \lambda_{it}&=\exp(\alpha_{i}+\beta X_{it})\\[1ex] \end{align} \]
즉, 주어진 관찰기간 내에서 발생한 사건의 수를 나타내는 것이므로 포아송 분포를 따른다고 가정할 수 있다. 푸아송 분포를 추정하기 위해 조건부 우도함수를 사용하게 되고, 이 과정에서 \(\alpha_{i}\)가 약분된다.
\(\alpha_{i}\)가 추정식에서 사라지는 과정에 대한 자세한 설명, 그리고 SCCS의 구체적인 방법론적 적용에 대해서는 다음 포스트에서 다루기로 한다.