종속변수가 이항변수인 집단중심추세모델(GBTM)

GMM, GBTM, LCGA, LCMM 차이

연구논문
GBTM
궤적모형(GBTM, LCGA 등)이 유행한다. 시간에 따른 개인의 소득변화 유형, 숙련형성 유형 등. 그런데 종속변수가 이항변수인 경우에도 궤적모형을 적용할 수 있을까?
Author

Sungjun Park

주의

미완성된 포스트입니다.

1 개요

종단추세모형은 특정한 변수가 시간에 따라 어떻게 변화하는지를 모델링하는 분석기법이다. 시계열 모형과 혼동하기 쉬운데, 시계열 모형은 1개(e.g., 실업률) 혹은 동일한 개체(e.g., A사 주가)를 연속적으로 측정한 데이터를 다룬다는 점에서 차이가 있다. 종단추세모형은 여러 개체(e.g., 여러 개인들)의 시간에 따른 변화를 추세적으로 접근하는 방법이다. 오히려 패널 모형에 좀 더 가깝다.

2 종단추세모형(longitudinal trajectory model)의 매력

분석방법으로서 종단추세모형은 사회과학분야 뿐만 아니라, 자연과학 중에서도 모델중심(model-based)의 분석방법을 주로 채택하는 분야(역학 등)에서 상당히 매력적이다. 여러가지 이유가 있겠지만 무엇보다 시간에 따른 변화패턴을 식별한다는 점은 연구자, 독자 모두에게 적잖은 통찰을 제공하기 때문일 것이다.

예를 들어 시간에 따른 소득수준 변화는 통계청 등에서 발표하는 것처럼 단일한 추세(trajectory)이기보다는, 각기 처한 생애주기적 상황에 따라 다양한 추세(trajectories)가 더 자연스럽다. 다만 그 유형이 몇 개인지 혹은 누가 어떤 유형에 속하는지는 알 수 없을 뿐이다. 이를 알게 해주는 것이 종단추세모형이다. 종단추세모형을 적용하면 우리는 개인의 소득변화 패턴을 몇 개의 유형으로 나눌 수 있는지, 이중 유효하거나 분석적 의미를 갖는 유형이 몇 개인지, 각 유형에는 어떤 사람들이 해당되는지 등을 알게 됨으로써 통찰을 얻을 수 있다.

종단추세모형의 주요 장점을 정리해보면 다음과 같다.

2.1 인과관계 추론보다는 의미 해석

대부분의 통계학적 분석모델은 이미 측정된 자료를 다룬다는 점에서 일단은 귀납적이다. 다만 GLS를 필두로 하는 모든 분석방법은 정교한 인과효과 계산을 위해 적용하는 통제변수법, 조절변수법, 패널모델의 차분법 등의 수행은 그간 쌓아온 이론적 지식을 통해 결정된다는 점에서 연역적인 측면도 강하다. 예컨대 유해약물 노출빈도가 높을수록 조기사망1 가능성이 증가하지만 소득수준, 의료기관 접근성, 부양가족 유무 등에 따라 편차가 크다는 점이 선행연구를 통해 이미 보고된 바 있으므로 이들을 통제변수로 모델에 포함시켜야 한다는 사실은 광범위하게 받아들여진다. 즉, 연구자는 분석 사전에 선행적(즉, 연역적)으로 통제변수로 무엇을 포함시켜야 하는지 이미 알고있다.

그러나 종단추세모형은 사전지식없이 일단 관찰한 결과에 의미를 부여한다는 점에서 귀납적인 측면이 더욱 강하다. 이렇게 귀납적 관찰을 목적으로 한다는 점은 특히 문과 통계학적 분석방법이 어렵거나, 적용이 제한되는 연구주제일 때 장점이 크게 드러난다. 쉽게 말하면 데이터 고문을 하지 않아도 된다는 것.2

2.2 정밀한 모델링보다는 요약적 시각화

시계열분석의 경우, 시간에 따른 변화 모두를 모델에서 표현하기를 바란다. 예컨대 고용률은 대학생들이 졸업하는 2월, 8월을 기점으로 다소의 등락이 패턴화 되어있는 대표적인 지표이다. 이러한 계절성은 주기를 갖고 반복됨과 동시에 노동시장 경기에 따라 추세까지 갖고 있다. 시계열 모형은 이런 계절성, 주기성, 추세성 모두를 모델에서 표현코자 노력한다.3 전파의 파장을 떠올려보자. 실제로 시계열분석과 전파공학은 밀접한 관련이 있다.

반면 종단추세모형은 세부적인 모델링 자체에 집중하기 보다는, 현상에 대한 요약적 시각화에 관심을 둔다. 이름처럼(trajectory) 계절성, 주기성보다는 추세성에 주목한다. 예를 들어 “단순증가 또는 감소”, “일시적 상승 후 감소”와 같은 개략적인 추세로 원자료를 요약하여 모델링하는데에 특화되어 있다. 즉, 정확한 모델링보다는 특별히 구분되는 추세가 존재하는지 확인하고, 여기로부터 특정한 의미를 이끌어낼 수 있는지가 중요하다. 물론, 모집단 전체의 추세(fixed effect), 하위 그룹별 추세(mixed effect), 각 집단 내 개인별 추세(random effect)를 모두 세분화하여 모델링하기도 하지만, 결국은 그 추세의 해석이 유의미한 학술적 발견을 내재하고 있는지가 중요하다.

2.3 변수를 생성하는 분석

생소하게 들리지만 잠재변수와 같은 개념이다. 있는 데이터를 기준으로 원래 없던 변수를 새롭게 만드는 분석을 적용할 수 있다. 통계적 분석방법론에서 잠재변수란, 측정되지 않아서 직접 핸들링할 수 없지만 분명히 존재하여 여타의 변수와 변수의 관계에 유효한 영향을 미치는 변수를 의미한다.4 종단추세분석에서 잠재변수는 다름아닌 하위집단의 갯수. 언뜻 들으면 요인분석과 비슷해보인다. 그러나 엄밀히 다르다. 요인분석은 관찰된 \(n\)개의 변수들의 조합으로 관찰되지 않은 구성개념을 생성한다. 잠재변수라는 같은 용어를 사용하지만 통계학적 의미는 전혀 다름에 주의.

잠재계층분석(LCA), 잠재프로파일분석(LPA), 잠재계층성장분석(LCGA), 집단중심추세분석(GBTM) 등은 모두 하위집단의 갯수를 잠재변수로 둔다. 이들 분석방법은 공통적으로 모집단이 하나의 동질적인 집단이 아닐 수 도 있다고 가정한다. 이에 모집단의 수 \(n\)\(1\), \(2\), \(3\), \(...\), 등으로 하나씩 늘려본 뒤 가장 괜찮아보이는(goodness of fit) \(n\)을 선별하여 이를 최종 잠재변수로 지정하는 것이 기본적인 과정이다.

3 종류

Figure 1: 종단추세모형 분석방법론의 종류
flowchart LR
  B(하위집단의 수) -->|없음| C[OLS]
  B -->|2개 이상| D(개인 차이)
  D -->|미고려| F[LCGA]
  D -->|고려| E[GMM]
  F -->|등분산가정| G[GBTM]

복잡성 측면에서, LCGA는 일반회귀분석(OLS)과 성장혼합모형(GMM)의 중간쯤에 위치한다. 이질적인 하위집단이 존재함을 가정하되 개인별 차이는 고려하지 않도록 하여, 궤적유형의 분기에 더욱 집중할 수 있게 된다. Figure 1 에는 빠졌지만, 하위집단이 1개인 경우라도 개인별 차이를 고려한 모델도 존재한다. 교육분야에서 흔히 쓰이는 다층모형 혹은 위계적 회귀분석이 바로 그것.

3.1 일반적인 선형회귀모형

하위집단이 1개라고 가정한다면, 기본적으로 단순 패널회귀분석과 같다. 이것을 식으로 나타내면 다음과 같다.

\[ Y_{it} = \beta_{0}+\beta_{1}X_{it}+\epsilon_{it} \]

위 식에서 \(\beta_{0}\)\(\beta_{1}\)는 분석대상 \(i\) 모두에게 적용되는 고정효과(fixed effect)이다.5 이 식을 추정함으로써 연구자는 설명변수의 평균적인 효과를 얻게된다. 즉, 분석대상은 모두 평균적으로 \(\beta_{1}\)쯤 반응한다고 가정하는 것.

3.2 위계적 회귀분석 혹은 다층모형

그런데 시간에 따른 변화는 개인 \(i\)마다 모두 다를 것이다. 이 개인차가 중요한 연구주제라면,6 식을 다음과 같이 바꿔 추정할 수 있다:

\[ Y_{it} = (\beta_{0}+b_{0i})+(\beta_{1}+b_{1i})X_{it}+\epsilon_{it} \]

집단 전체가 공유하는 고정효과 \(\beta\)에 더하여, 개인마다 임의로 발생하는 효과 \(b\)를 추정하는 것. 이 떄의 \(b\)임의효과(random effect)가 된다. 그 크기는 개인마다 다르므로, 전체의 평균적인 추세를 놓고, 그 주변으로 개인차가 얼마나 어떻게 형성되고 있는지를 표현할 수 있다. 만약 개인 \(i=1\)\(b_{0}\), \(b_{1}\)이 모두 양수라면, 개인 \(i=1\)은 전체 분석대상보다 높게 시작하고 빠르게 상승하는 경우다. 상대적으로 추정식이 복잡하고 그만큼 프로그램의 연산과정도 오래걸린다.

3.3 잠재계층성장분석(LCGA) or 집단중심추세모형(GBTM)

만약 모든 개개인의 차이보다는 어떤 유형들이 있는지를 확인하고 싶다면 보통 임의효과는 추정하지 않는다. 그 대신, 모집단은 서로 이질적인 2개 이상의 하위집단으로 구성되어 있다는 가정을 추가한다. 집단의 수를 \(k\)개라고 가정하면, 각각의 \(\beta\)들을 \(k\)개 추정하는 것이다:

\[ Y_{it}^{k} = \beta_{0}^{k}+\beta_{1}^{k}X_{it}+\epsilon_{it} \]

연구자는 먼저 \(k\)의 수를 1, 2, 3, …, \(n\) 등 순차적으로 가정하여 각각의 모델을 모두 추정한다. 개인 \(i\)를 어느 집단으로 분류할지는 우도 함수를 통해 결정한다. 전체 우도는 각 개인이 특정 집단에 속할 확률과 해당 집단의 데이터에 맞는 확률밀도함수의 곱으로 계산한다. 자세한 내용은 생략한다.7 이후 각각의 모델들\((k=n)\)이 얼마나 데이터를 잘 설명하는지(goodness of fit)을 검토하여 하위집단, 즉 잠재집단 \(k\)의 수를 결정한다.

이렇게 추정한 값들을 연구자가 모두 검토한 결과, 만약 \(k=3\)이 가장 적절한 것으로 판단된다면 다음의 3개 식을 모두 비교한다:

\[ Y_{it}^{1} = \beta_{0}^{1}+\beta_{1}^{1}X_{it}+\epsilon_{it} \]

\[ Y_{it}^{2} = \beta_{0}^{2}+\beta_{1}^{2}X_{it}+\epsilon_{it} \]

\[ Y_{it}^{3} = \beta_{0}^{3}+\beta_{1}^{3}X_{it}+\epsilon_{it} \]

물론, 연구주제에 따라 몇가지 통제변수를 추가하거나 조절변수 등을 추가하는 것도 가능하다. 그러나 앞서 서술했듯 종단추세모형 중 임의효과(random effect)를 확인하지 않는 모형들의 목적은 정밀한 모델링과는 거리가 있다. 내생성을 통제하여 설명변수의 정밀한 효과를 추정하는 것은 LCGA, GBTM의 목적과는 거리가 있다. GBTM은 관측되지 않는 변수들을 모형에 포함하지 않음으로써 연구자의 관심을 끌어내는 잠재변수를 도출하는데 그 목적이 있다. 통제변수가 추가될 경우 자칫하면 되려 해석에 더 복잡성만을 더하게 된다.

보통 관찰연구의 한계를 절실히 느끼는 사회과학 연구에서는 시간에 따른 변화의 유형을 도출하는 것 자체에 의의를 두곤 한다. 데이터의 체계적 신뢰성이 비교적 높게 확보되는 역학 분야에서는 이 잠재변수를 재차 OR, RR 등의 회귀모형의 종속변수로 넣기도 한다.

비교적 최근에는 집단 수 \(k\)를 연구자가 임의로 정하기보다는, 보다 유의미한 집단 수를 선택할 수 있도록 돕는 여러 방법들이 제안되고 있다. 요약하자면, 단순 goodness of fit만을 확인하는 것을 넘어서, \(k=n\)인 모델이 \(k=n-1\)에 비해 유의미하게 gof가 높은 모델인지 등을 검증하는 방법 등이 해당된다(e.g., BLRT).

이하에서는 GBTM으로 통일하여 명명하도록 하자.

4 종속변수 설정과 연결함수

일반적인 경우, GBTM은 종속변수를 연속형 변수(continuous)로 구성한다.8 그러나 종단추세모형도 여타 회귀분석모델의 종속변수 문제와 유사하게, 여러 형태의 종속변수를 활용할 수 있다. 바로 연결함수(link function)를 사용하는 것. 여기에서는 간단히 이항변수(binomial)에 사용할 수 있는 thresholds 함수에 대해서 알아보자. 종속변수가 이향변수인 경우 로지스틱 함수를 연결함수로 흔히 사용한다. 깔끔하고 직관적이기 떄문. 그러나 lcmm 패키지가 연결함수로 thresholds 함수를 활용하는 이유는 logit 함수보다 thresholds 함수가 더 다양한 종속변수에 대응할 수 있기 때문이다:

  • logit 함수
    확률 \(P(Y=1)\)을 직접 선형예측식으로 모델링

  • thresholds 함수
    이항변수인 종속변수 \(Y\)는 잠재적으로 연속변수라고 가정, \(Y=1\)이 되는 문턱을 설정하여 모델링. 종속변수가 2개 이상의 이산변수(categorical)라면 문턱을 여러단계 설정하여 모델링.

예를 들어 종속변수가 건강보험 가입여부(\(Y_{i}=1~or~2\))인 경우, thresholds 함수를 사용하게 되면, 개인 \(i\)의 건강보험 가입여부를 직접적으로 결정하는 잠재된 연속변수(\(Y_{i}^*\))가 있음을 가정하게 된다. 이 \(Y_{i}^*\)가 어떤 문턱을 넘게되면 \(Y_{i}=1\)로 판정하도록 그 문턱을 정하는 것이 thresholds 함수의 기본적인 원리다. probit 함수와 비슷하다.

4.1 변수

4.2 분석방법

5 분석결과

Figure 2: Goodness of fits

Figure 3: 추정된 잠재집단추세유형별

Footnotes

  1. 예상되는 기대수명보다 이른 시점에서 발생하는 사망. 보다 일반적으로는 시대나 국가마다 다르지만 통상적으로 70세 이전의 사망을 조기사망으로 보는 듯 하다.↩︎

  2. 예를 들어 통상적인 회귀분석 연구의 경우, 논문에 들어갈 최종모형은 연구자가 원하는 결과가 나타날 때까지 데이터 고문 이 변수 저 변수 넣었다 뺏다 하는 과정을 거쳐야 비로소 결정된다. 물론 이 경우 연구자의 주관을 다소 통제할 수 있는 인과추론방법을 사용하면 해결되지만, 사회과학 전공자는 인과추론 연구방법론 공부 말고도 공부해야 될 것이 많다. 뿐만 아니라 보다 현실적인 문제도 있다. 통제하려는 변수가 정작 데이터셋에 없는 경우도 많다. 또한 기껏 공부한 분석방법이 데이터 문제로 사용할 없는 경우 또한 자주 발생한다. 예를 들어 관심있는 독립변수가 이산변수일 경우 패널회귀 고정효과 모델을 사용할 수 없다.↩︎

  3. 이동평균(MA), 자기상관(AR), 혹은 둘다(ARMA). 여기에 정상성 가정의 달성을 위해 차분(ARIMA)을 첨가한다던지 등.↩︎

  4. 이렇게 정의하는 이유는, 잠재변수를 “측정되지 않아서 대신 다른 변수로 측정하는 구성개념”으로 정의하는 경우도 있기 때문. 예컨대 이 정의에 따르면 지능이 잠재변수라면, IQ가 관측변수다. 비슷하게 들리지만 분석방법론적 의미로 확장하기에는 부족하다.↩︎

  5. 흔히 패널회귀분석에서 사용하는 고정효과모델과 그 용례가 다름에 주의하자. 통계학에서 말하는 고정효과와 계량경제학에서 말하는 고정효과는 의미는 같을지언정 그 용례가 다르다.↩︎

  6. 주로 교육분야 등.↩︎

  7. 우도함수, EM 알고리즘 등에 대해 공부해보자.↩︎

  8. 사회과학 분야에서는 연속형 변수를 가정한 모델에 순서형 변수(ordinal)까지도 사용하는 듯 하다.↩︎