일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 상향식 집행
- 손실구간
- 조직루틴
- 취업
- 기대효용이론
- 조직절차모형
- 식품불안정
- 앨리슨모형
- 조직관리
- 합리모형
- 정책학
- 관료정치모형
- 정책과정론
- 상향식접근
- 쓰레기통모형
- 논문쓰기
- 이론이란?
- 미숙련 노동자
- 행정학
- 조직행동
- 정책평가
- 전망이론
- 국제학
- 계량분석
- 징병추첨번호
- 정책결정론
- 하향식접근
- 실험설계
- 도구변수
- 정책집행론
- Today
- Total
공간정책분석가
논문리뷰 (성향점수매칭 PSM 활용가능성 평가): How Close is Close Enough? Evaluating Propensity Score Matching Using Data from a Class Size Reduction Experiment (Wilde & Hollister, 2007) 본문
논문리뷰 (성향점수매칭 PSM 활용가능성 평가): How Close is Close Enough? Evaluating Propensity Score Matching Using Data from a Class Size Reduction Experiment (Wilde & Hollister, 2007)
분석가 가온 2023. 10. 10. 01:40Backgroud
본 연구의 목적은 비실험연구 중 하나인 성향점수매칭(Propensity Score Matching, 이하 PSM)기법의 활용가능성을 평가하는데 있다. 또한, 비실험연구를 통한 추정의 효과가 실제 실험연구로 나왔을 것이라 예상되는 추정치와 얼마나 유사한지를 판단하는 여러 기준을 탐색하고자 한다. 정책평가에서 가장 좋은 기준은 무작위배정 실험이다. 하지만 현실에서는 무작위배정 실험에 제한이 있거나 어떠한 경우에는 불가능할 수 있다. 이에 따라 PSM 등 비실험연구 기법들이 등장하기 시작했다.
본 연구에서 주목하는 연구는 교실 인원 축소가 학생의 개별 능력에 영향을 주었는가를 실험한 테네시의 STAR 프로젝트이다. STAR 프로젝트는 이를 측정하기 위해 실행된 실험연구로, 해당 연구의 데이터를 기반으로 PSM을 추정한 후 실제 실험연구 추정치와 비교하여 PSM의 정확도를 확인하고자 했다.
Data
본 연구는 79개 학교에서 학급당 학생수를 줄였을 때 학업성취도가 향상되는지를 살펴본 STAR 프로젝트의 데이터를 가지고 11개의 통제집단을 비실험집단으로 구성했다. 통제집단은 실험집단 학급의 학생 및 선생님의 특성과 최대한 유사하게 구성되도록 선정했다. 종속변수로 시험점수를 사용했으며, 본 연구분석은 STAR 프로젝트에 참여한 학교 학생 100여명으로 제한한다. 본 연구는 PSM 방법론의 유효성을 검증하는 것 외에도, 과거 진행된 실험데이터를 가지고 활용하였다는 점에서 비용절감, 지식 축적 등의 장점이 있다.
Design
본 연구는 실제 진행된 실험연구의 데이터를 활용하여 비실험연구 방법론의 유효성을 검증한다는 참신한 아이디어를 가지고 있다. 비실험연구의 추정치가 실제 실험연구의 추정치와 얼마나 유사한가를 판단하는 것은 비실험연구의 타당성을 검증하는 것과 매우 밀접하게 관련이 있다. 실험설계면에서 실험연구와 PSM의 차이는 통제집단과 실험집단의 차이에 있다. 실험연구의 경우 통제집단과 실험집단을 한 학교 내에 구성하여, 학급 내 학생수의 감소로 인한 추정치를 학교별로 추정했다. 반면 PSM은 학생이 다른 학교더라도, 성향이 매칭된다면 해당 표본을 같은 통제집단으로 선정했다. 이렇게 선정될 경우 학교를 통제하지 않게되어 학교 차이로 인한 수준효과로 인해 추정치가 편향될 수 있다. 특히 본 연구에서는 사전 시험을 통한 학생들의 수준 판별이 되어있지 않았다. 물론 본 논문에서도 사전시험이 만병통치약이 아니라고 언급하지만, 성향점수에 이부분이 포함되지 않아 수준효과로 인한 추정치의 편향을 피하기는 어려울 것이라 생각된다.
통계적 기법
PSM은 종속변수를 처치여부 즉, 이항변수(처치=1, 나머지=0)로 하고, 두 집단을 유사한 것으로 판단하는 공변량(성별, 인종 등)을 독립변수로 하는 로지스틱 회귀분석 모형을 가지고 시행한다. 이를 통해 실험집단으로 배정된 학생의 성향과 유사한 성향을 가진 학생을 나머지 집단에서 선정하여 매칭하도록 한다. 매칭이 된 후에는 균형화 검정을 진행하게 되는데 이를 위해 성향점수의 분포에 따라 순위를 매긴 후 여러 개의 집단에 배정한다. 다음으로 각 집단 내에서 성향점수의 차이가 나는지를 검정하고, 만약 차이가 있을 경우 각 집단내의 성향 차이가 통계적으로 유의미하지 않을 때까지 재배정이 이루어진다. 본 연구에서는 기존 실험연구에서의 통제집단과 일치하는 것을 방지하기 위해 대체를 허용하였으며, 이로 인해 관측점의 수가 차이나는 문제는 각 분석 단계에서 가중치를 도입하여 해결했다. PSM을 통해 처치집단과 통제집단이 구성된 다음에는 OLS를 통해 학생수의 감소로 인한 학업성취도 효과를 추정했다.
전체적인 평가와 한계
STAR 프로젝트의 데이터는 무작위배정을 기반으로 한 사회실험연구로서, 특히 여러 학교에서 진행되었던 만큼 한 개의 실험에서 여러 실험 데이터를 확보할 수 있는 기회를 제공했다. 모든 집단에 동일하게 정의되고 측정된 데이터를 활용한 덕분에 본 연구에서는 PSM을 활용하여 다른 학교의 학생을 통제집단으로 구성할 수 있었고, PSM의 유용성을 검증할 수 있었다. 따라서, 다른 출처, 다른 정의에 기반 데이터를 가지고 측정했던 기존 연구들에 비해 본 연구는 보다 효과적으로 성향점수매칭을 검증했다고 할 수 있다.
반면, STAR 프로젝트의 데이터는 매칭을 하기위한 성향점수가 제한된다는 단점이 있다. 더 많은 변수가 있다고하여 매칭이 꼭 잘되는 것은 아니지만, 문제가 되는 것은 기존의 변수들이 조건부독립성 가정을 충족시킬만큼 충분하게 있는가이다. 가장 크게 문제가되는 변수는 학생들의 실험참여 전 학업성취도 점수가 없다는 것이다. 물론 학업성취도 점수가 만병통치약은 아니지만, 있었다면 보다 나은 실험집단과 통제집단의 성향 매칭이 가능했을 것이라 생각된다. 마지막으로, 통제집단은 실험집단과 지리적으로 가까운 곳에 위치해야 한다는 비판이 존재한다. 이는 주로 재취업 훈련 연구에서 중요하게 고려되는 것으로써, 지역 시장이 고용에 영향을 미칠 수 있기 때문에 주장된다. 하지만 교육 연구에서는 ‘지역 시장’과 유사한 개념, 실체가 없기 때문에 문제가 되지 않는다.