사회과학계에 “궤적모형(GBTM, LCGA 등)”이 유행한다. 시간에 따른 개인의 소득변화 유형, 숙련형성 유형 등. 그런데 종속변수가 이항변수인 경우에도 궤적모형을 적용할 수 있을까?
Author
S. Park
주의
미완성된 포스트입니다.
1 개요
종단추세모형은 특정한 변수가 시간에 따라 어떻게 변화하는지를 모델링하는 분석기법이다. 시계열 모형과 혼동하기 쉬운데, 시계열 모형은 1개(e.g., 실업률) 혹은 동일한 개체(e.g., A사 주가)를 연속적으로 측정한 데이터를 다룬다는 점에서 차이가 있다. 종단추세모형은 여러 개체(e.g., 여러 개인들)의 시간에 따른 변화를 추세적으로 접근하는 방법이다. 오히려 패널 모형에 좀 더 가깝다.
2 종단추세모형(longitudinal trajectory model)의 매력
분석방법으로서 종단추세모형은 사회과학분야 뿐만 아니라, 자연과학 중에서도 모델중심(model-based)의 분석방법을 주로 채택하는 분야(역학 등)에서 상당히 매력적이다. 여러가지 이유가 있겠지만 무엇보다 시간에 따른 변화패턴들을 식별한다는 점은 연구자, 독자 모두에게 적잖은 통찰을 제공하기 때문일 것이다.
예를 들어 시간에 따른 소득수준 변화는 통계청 등에서 발표하는 것처럼 단일한 추세(trajectory)이기보다는, 각기 처한 생애주기적 상황에 따라 다양한 추세(trajectories)가 더 자연스럽다. 다만 그 유형이 몇 개인지 혹은 누가 어떤 유형에 속하는지는 알 수 없을 뿐이다. 이를 알게 해주는 것이 종단추세모형이다. 종단추세모형을 적용하면 우리는 개인의 소득변화 패턴을 몇 개의 유형으로 나눌 수 있는지, 이중 유효하거나 분석적 의미를 갖는 유형이 몇 개인지, 각 유형에는 어떤 사람들이 해당되는지 등을 알게 됨으로써 통찰을 얻을 수 있다.
종단추세모형의 주요 장점을 정리해보면 다음과 같다.
2.1 인과관계 추론보다는 의미 해석
대부분의 통계학적 분석모델은 이미 측정된 자료를 다룬다는 점에서 일단은 귀납적이다. 다만 GLS를 필두로 하는 모든 분석방법은 정교한 인과효과 계산을 위해 적용하는 통제변수법, 조절변수법, 패널모델의 차분법 등의 수행은 그간 쌓아온 이론적 지식을 통해 결정된다는 점에서 연역적인 측면도 강하다. 예컨대 유해약물 노출빈도가 높을수록 조기사망1 가능성이 증가하지만 소득수준, 의료기관 접근성, 부양가족 유무 등에 따라 편차가 크다는 점이 선행연구를 통해 이미 보고된 바 있으므로 이들을 통제변수로 모델에 포함시켜야 한다는 사실은 광범위하게 받아들여진다. 즉, 연구자는 분석 사전에 선행적(즉, 연역적)으로 통제변수로 무엇을 포함시켜야 하는지 이미 알고있다.
그러나 종단추세모형은 사전지식없이 일단 관찰한 결과에 의미를 부여한다는 점에서 귀납적인 측면이 더욱 강하다. 이렇게 귀납적 관찰을 목적으로 한다는 점은 특히 문과 통계학적 분석방법이 어렵거나, 적용이 제한되는 연구주제일 때 장점이 크게 드러난다. 쉽게 말하면 데이터 고문을 하지 않아도 된다는 것.2
2.2 정밀한 모델링보다는 요약적 시각화
시계열분석의 경우, 시간에 따른 변화 모두를 모델에서 표현하기를 바란다. 예컨대 고용률은 대학생들이 졸업하는 2월, 8월을 기점으로 다소의 등락이 패턴화 되어있는 대표적인 지표이다. 이러한 계절성은 주기를 갖고 반복됨과 동시에 노동시장 경기에 따라 추세까지 갖고 있다. 시계열 모형은 이런 계절성, 주기성, 추세성 모두를 모델에서 표현코자 노력한다.3 전파의 파장을 떠올려보자. 실제로 시계열분석과 전파공학은 밀접한 관련이 있다.
반면 종단추세모형은 세부적인 모델링 자체에 집중하기 보다는, 현상에 대한 요약적 시각화에 관심을 둔다. 이름처럼(trajectory) 계절성, 주기성보다는 추세성에 주목한다. 예를 들어 “단순증가 또는 감소”, “일시적 상승 후 감소”와 같은 개략적인 추세로 원자료를 요약하여 모델링하는데에 특화되어 있다. 즉, 정확한 모델링보다는 특별히 구분되는 추세가 존재하는지 확인하고, 여기로부터 특정한 의미를 이끌어낼 수 있는지가 중요하다. 물론, 모집단 전체의 추세(fixed effect), 하위 그룹별 추세(mixed effect), 각 집단 내 개인별 추세(random effect)를 모두 세분화하여 모델링하기도 하지만, 결국은 그 추세의 해석이 유의미한 학술적 발견을 내재하고 있는지가 중요하다.
2.3 변수를 생성하는 분석
생소하게 들리지만 잠재변수와 같은 개념이다. 있는 데이터를 기준으로 원래 없던 변수를 새롭게 만드는 분석을 적용할 수 있다. 통계적 분석방법론에서 잠재변수란, 측정되지 않아서 직접 핸들링할 수 없지만 분명히 존재하여 여타의 변수와 변수의 관계에 유효한 영향을 미치는 변수를 의미한다.4 종단추세분석에서 잠재변수는 다름아닌 하위집단의 갯수. [요인분석]에서는 \(n\)개의 측정변수 조합으로 만들어지는 구성개념.
잠재계층분석(LCA), 잠재프로파일분석(LPA), 잠재계층성장분석(LCGA), 집단중심추세분석(GBTM) 등은 모두 하위집단의 갯수를 잠재변수로 둔다. 이들 분석방법은 공통적으로 모집단이 하나의 동질적인 집단이 아닐 수 도 있다고 가정한다. 이에 모집단의 수 \(n\)을 \(1\), \(2\), \(3\), \(...\), 등으로 하나씩 늘려본 뒤 가장 괜찮아보이는(goodness of fit) \(n\)을 선별하여 이를 최종 잠재변수로 지정하는 것이 기본적인 과정이다.
여기부터 써야해
후술하겠지만 GBTM은 잠재변수(latent variable)를 가정하는 방법 중 최대우도법(MLE) 계통의 분석방법에 해당한다.5
이와 달리, 종단추세모형은 결과를 해석하여 유의미한 논증을 이끌어내는 것에 집중한다. 소득수준 변화패턴들의 특징들로부터 특징적인 현상을 포착함으로써 논문의 연구가설을 뒷받침하거나, 새로운 패턴을 발견함으로써 지금까지 집적된 지식의 외연을 확장하는데 강점이 있다.
1의 구조적 위험은 실업, 퇴직, 산재 등 자본주의사회이기에 발생하는 위험을 말한다. 2의 집합주의적 보호란 개인-개인이나 지역사회(교회 등)-개인 사이의 도움이 아닌, 제도적 보호를 의미한다. 자선행위가 아무리 많아도 그건 복지국가가 아니다. 5는 한두개의 제도가 아닌 다수의 제도가 요구됨을 의미한다.
3, 4를 이해하기 위해서는 후생경제학적 배경지식이 필요하다. 간단히 말하면, 소득구조를 교정하여 사회 전체의 효용을 증가시킬 수 있음을 의미한다. 지나친 불평등은 자원분배의 비효율을 초래하여 결과적으로 사회 전체의 역동을 감소시킨다.
구조적 위험(1)에 대한 대응책으로 제시되는 제도(2)에는 대표적으로 사회보험이 있다. 퇴직, 질병, 노령, 실업, 산재는 국민연금, 건강보험, 노인장기요양보험, 고용보험, 산재보험과 정확히 대응된다. 사회보험은 복지국가의 근간을 이루는 핵심적 제도인 것이다. 미국을 포함한 대부분의 자본주의 국가는 사회보험제도를 운영하고 있다.
요약하자면, 사회정책이 잘 작동할 때, 자본주의 체제는 약점을 적절히 극복하고 최적화될 수 있다는 것.
Code
data_url <-"https://sdmx.oecd.org/public/rest/data/OECD.WISE.INE,DSD_WISE_IDD@DF_IDD,/JPN+ITA+FRA+DEU+AUT+NOR+CAN+FIN+DNK+SWE+USA+GBR+AUS+KOR.A.INC_DISP_GINI..._T.METH2012..?startPeriod=2010&endPeriod=2023&dimensionAtObservation=AllDimensions"response <-GET(data_url)json_text <-content(response, as ="text", encoding ="UTF-8")json_data <-fromJSON(json_text)obs_dim <- json_data$structure$dimensions$observationtime_values <- obs_dim$values[[10]]time_labels <- time_values$idref_area_dim <- obs_dim$values[[1]]ref_area_labels <- ref_area_dim$idseries_list <- obs_dim$values[[1]]$idresults <-data.frame()obs <- json_data$data$observationsdims <- json_data$structure$dimensions$observation# 각 차원의 인덱스를 실제 값으로 매핑get_label <-function(dim_index, value_index) { dims[[dim_index +1]]$values[[value_index +1]]$id}# 결과 저장용results <-data.frame()# 관측값 순회하며 정리for (key innames(obs)) { key_parts <-as.numeric(strsplit(key, ":")[[1]]) time <-get_label(0, key_parts[1]) country <- json_data$structure$dimensions$series[[1]]$values[[key_parts[2] +1]]$id value <- obs[[key]][[1]] results <-rbind(results, data.frame(country = country, year = time, gini = value))}# 보기 좋게 정렬results <- results %>%arrange(country, year)print(results)
2.5 문제점
사회정책이 불평등을 강화시키고 있다는 몇몇 증거들
이중구조에 대한 얘기들
2.6 필요성
(작성중) 사회정책은 본래 소득불평등을 완화하는 기능을 수행하지만, 최근의 사회정책은 오히려 불평등을 더 강화하고 있다. 노동시장 이중구조 때문이다. 사회보험은 사회정책의 핵심제도 중 하나인데, 이 사회보험의 불평등 완화효과는 가입자 내에서만 작동하고, 미가입자에게는 작동하지 않는다. 반면 대개 사회보험 미가입 일자리는 저임금 일자리가 많다. 정작 재분배의 수혜자가 되어야 할 이들이 정책 대상에서 제외되어 있는 셈이다. 그럼에도 불구하고, 사회정책 분야 노동시장 연구는 대부분 “사회정책의 불평등 강화 효과”를 다루는 경우가 드물다. 그러나 연구자들은 이중노동시장의 외부자가 “불평등 강화효과”로 인해 사회정책에 대한 정치적 지지를 철회하고 사회정책의 지지 기반에서 이탈할 수 있음을 인식해야 한다. 사회정책의 잠재적 수혜자인 이들의 지지철회는 사회정책 논의의 정당성과 제도적 발전가능성에 위협이 될 수 있기 때문이다.
예상되는 기대수명보다 이른 시점에서 발생하는 사망. 보다 일반적으로는 시대나 국가마다 다르지만 통상적으로 70세 이전의 사망을 조기사망으로 보는 듯 하다.↩︎
예를 들어 통상적인 회귀분석 연구의 경우, 논문에 들어갈 최종모형은 연구자가 원하는 결과가 나타날 때까지 데이터 고문 이 변수 저 변수 넣었다 뺏다 하는 과정을 거쳐야 비로소 결정된다. 물론 이 경우 연구자의 주관을 다소 통제할 수 있는 인과추론방법을 사용하면 해결되지만, 사회과학 전공자는 인과추론 연구방법론 공부 말고도 공부해야 될 것이 많다. 뿐만 아니라 보다 현실적인 문제도 있다. 통제하려는 변수가 정작 데이터셋에 없는 경우도 많다. 또한 기껏 공부한 분석방법이 데이터 문제로 사용할 없는 경우 또한 자주 발생한다. 예를 들어 관심있는 독립변수가 이산변수일 경우 패널회귀 고정효과 모델을 사용할 수 없다.↩︎
이동평균(MA), 자기상관(AR), 혹은 둘다(ARMA). 여기에 정상성 가정의 달성을 위해 차분(ARIMA)을 첨가한다던지 등.↩︎
잠재변수란, 측정되지 않아서 직접 핸들링할 수 없지만 분명히 존재하여 여타의 변수와 변수의 관계에 유효한 영향을 미치는 변수를 의미한다. GBTM 등에서 잠재변수(i.e., 모집단의 수)는 최대우도법을 통해 추정되지만, 요인분석(factor analysis)은 상관계수 행렬의 고유벡터를 토대로 구성한다.↩︎
잠재변수란, 측정되지 않아서 직접 핸들링할 수 없지만 분명히 존재하여 여타의 변수와 변수의 관계에 유효한 영향을 미치는 변수를 의미한다. GBTM 등에서 잠재변수(i.e., 모집단의 수)는 최대우도법을 통해 추정되지만, 요인분석(factor analysis)은 상관계수 행렬의 고유벡터를 토대로 구성한다.↩︎