인과 추론을 위한 성향 점수 매칭(PSM) 가이드: 실제 영향력 추정하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

관측 데이터에서 인과 관계를 도출할 때 발생하는 선택 편향 문제를 해결하기 위해 성향 점수 매칭(PSM) 기법을 활용한다. 이 방법은 처치군과 대조군 사이의 공변량 분포를 맞추어 무작위 통제 실험(RCT)과 유사한 환경을 재현한다. 로지스틱 회귀를 통해 성향 점수를 추정하고, 근접 이웃 알고리즘으로 유사한 샘플을 매칭한 뒤 표준화된 평균 차이(SMD)로 균형을 검증한다. 이커머스 데이터 분석 결과, 단순 비교 시 발생하던 왜곡을 제거하고 재방문 고객의 순수 구매 전환 효과(ATT)를 정확히 측정할 수 있음을 확인했다.

배경

기초 통계학 지식, 로지스틱 회귀 분석 이해, Python 데이터 분석 라이브러리(Pandas, Scikit-learn) 사용법

대상 독자

데이터 사이언티스트 및 인과 추론에 관심 있는 분석가

의미 / 영향

이 기술은 실험 설계가 어려운 비즈니스 환경에서 데이터 기반의 의사결정 신뢰도를 높여줍니다. 특히 마케팅이나 정책 효과 분석 시 단순 상관관계가 아닌 인과 관계를 파악하게 함으로써 자원 배분의 효율성을 극대화할 수 있습니다.

섹션별 상세

관측 데이터는 처치군과 대조군 간의 사전 특성 차이로 인해 단순 결과 비교 시 인과 관계 왜곡이 발생하기 쉽다. PSM은 각 유닛이 처치를 받을 조건부 확률인 '성향 점수'를 계산하여 이 문제를 해결한다. 로지스틱 회귀 모델을 사용해 관찰된 공변량들을 입력으로 하여 성향 점수를 출력하며, 이를 통해 다차원의 변수들을 단일 점수로 요약한다. 결과적으로 서로 다른 배경을 가진 집단 간의 비교 가능성을 높여준다.

추정된 성향 점수를 바탕으로 처치군과 대조군에서 점수가 가장 유사한 쌍을 맺는 매칭 과정을 수행한다. Scikit-learn의 NearestNeighbors를 활용한 1:1 근접 이웃 매칭 방식을 통해 중복 없는 매칭으로 균형 잡힌 비교 집단을 구성한다. 이 과정에서 두 집단의 점수 분포가 겹치는 '공통 지지(Common Support)' 영역을 확보하는 것이 분석의 신뢰성을 결정하는 핵심 요소이다.

처치군과 대조군의 성향 점수 분포를 보여주는 밀도 그래프 — Chart두 집단 간의 성향 점수 분포가 겹치는 영역(Overlap)을 시각화하여 매칭 가능성을 확인한다. 처치군(Treated)은 높은 점수에, 대조군(Control)은 낮은 점수에 분포가 집중되어 있지만 상당 부분 중첩되어 있어 유효한 매칭이 가능함을 시사한다.

매칭 후에는 표준화된 평균 차이(SMD)를 사용하여 공변량의 균형이 실제로 개선되었는지 진단해야 한다. SMD가 0.1 미만으로 떨어지면 두 집단 간의 불균형이 무시할 수 있는 수준으로 해소된 것으로 판단한다. 이커머스 사례 연구에서 제품 관련 페이지 방문 횟수 등의 변수 SMD가 0.28에서 0.05로 감소하며 매칭의 유효성이 입증되었다. 균형이 잡힌 후에야 비로소 결과 변수의 차이를 처치 효과로 해석할 수 있다.

매칭 전후 주요 공변량의 표준화된 평균 차이(SMD) 비교 차트 — ChartX1, X2, X3 세 가지 변수에 대해 매칭 전(Before)과 후(After)의 불균형 정도를 비교한다. 매칭 후 모든 변수의 SMD가 0.1 임계값(Threshold) 미만으로 감소하여 두 집단이 통계적으로 균형 잡힌 상태가 되었음을 증명한다.

최종적으로 매칭된 샘플을 사용하여 처치군에 대한 평균 처치 효과(ATT)를 산출함으로써 실제 비즈니스 임팩트를 측정한다. 단순 원시 데이터 비교와 달리, 행동 패턴이 유사한 사용자들끼리 비교하므로 '재방문'이라는 상태 자체가 구매율에 미치는 순수한 기여도를 분리해낼 수 있다. 분석 결과 재방문 고객의 구매 확률이 순수하게 2.5%p 상승하는 등의 구체적인 수치를 도출하여 의사결정의 근거로 활용한다.

실무 Takeaway

A/B 테스트가 불가능한 과거 관측 데이터에서도 PSM을 통해 혼란 변수를 통제하고 신뢰할 수 있는 인과 효과를 추정할 수 있다.
매칭 전후의 SMD(Standardized Mean Difference)를 비교하여 0.1 미만인지 확인하는 과정이 분석 결과의 타당성을 확보하는 필수 단계이다.
성향 점수 분포의 중첩(Overlap)이 부족할 경우 매칭 품질이 저하되므로, 시각화를 통해 공통 지지 영역을 반드시 점검해야 한다.

언급된 리소스

문서Online Shoppers Purchasing Intention Dataset