SAGA: 다중 수평 확률 예측을 위한 시퀀스-적응 생성 아키텍처와 적응적 Temporal Conformal Prediction

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

불규칙한 시계열 형 데이터와 다수의 연속적 특성을 포함하는 패널에서, 파라메트릭 Earnings Process의 한계를 넘어서는 예측이 필요하다. SAGA는 시퀀스-적응 tokenization과 공동 점/분포 헤드로 불확실성까지 보정하고, Monte Carlo 집계를 통해 Lifetime earnings 분포를 재구성한다. downstream microsimulation에서 정책지표(세금, Gini, 상위 1%)의 정확도를 향상시키고, 분포-자유한 방법으로 신뢰구간을 제공한다.

왜 중요한가

핵심 기여

Architecture

irregular tabular panel sequences를 위한 토큰화와 six-layer decoder-only transformer를 제시하고, 점 출력 y_hat와 7개 분위수 쌍의 출력을 병렬로 갖춘 Dual heads를 도입한다. 파라미터 수는 10,872,960으로, horizon별 컨포말 보정 층과 결합해 예측 분포를 산출한다.

Calibration

autoregressive 다중단기 예측에 conformalized quantile regression를 적용하고, Monte Carlo로 생애주기(lifetime) 합산 시에도 유효한 marginal 커버리지를 보장하는 적응적 컨포말 보정 절차를 제시한다.

Benchmark

GKOS(parametric) 프로세스 및 다수의 벤치마크(B1-AR(1) + 고정효과, Gradient Boosted Trees, LSTM, Static FF)를 같은 Swedish register 데이터 분할에서 비교한다.

Downstream evaluation

stylized Swedish lifetime tax calculator를 통한 예측 경로의 세금 납부, 평균 실효세율, lifetime earnings Gini, 상위 1% 비중 등 정책 지표를 평가한다.

Open release

trained weights, conformal calibration table, synthetic dataset를 Zenodo에 공개하고 코드 저장소를 GitHub에 배포한다.

핵심 아이디어 이해하기

출발점: irregular tabular panel은 연속/범주형/결측값 등 다양한 타입의 피처를 포함하며, 과거 소득만으로는 예측이 불충분하다. 기존 GKOS와 같은 parametric earnings process는 다변량 의존성이나 비정규성, 나이별 변동성을 포착하기 어렵다. 해결 원리: 1) continuous/categorical/missing values를 하나의 토큰으로 결합하는 Typed-subvector tokenization, 2) 6-layer decoder-only Transformer로 연속 관측을 autoregressive하게 처리, 3) 점/분포 예측을 위한 dual heads와 horizon-stratified conformal calibration으로 매 시점의 예측분포를 보정한다. 달라지는 점: CRPS, Pinball Loss, PICP에서 GKOS 대비 우수한 성능을 보이며, lifetime 집계의 분포까지 더 정확히 재구성한다. 연계로 Monte Carlo 경로를 수집해 present-discounted lifetime 값을 얻고, downstream 정책지표의 불확실성까지 함께 다룬다.

방법론

단락 1: 문제 정식화. i=1..N 각 개인에 대해 연도별 xi,t=(yi,t,ci,t,di,t,mi,t)로 구성된 시퀀스를 관찰하고 TC=10년의 conditioning window를 가진다. 예측 구간은 ti,TC+1..Ti에 대한 pθ(yi,ti,TC+1..yi,ti,Ti | xi,ti,1..xi,ti,TC)로 구성된다. Li는 20세에서 64세까지의 현재가치 합으로 정의한다. 단락 2: SAGA 아키텍처. L=6, H=8, d=384, FF=1536, context length=45, 파라미터 수 10,872,960. 출력 헤드는 점 예측 y_hat와 7개 분위수(5,10,25,50,75,90,95)를 생성한다. 단락 3: 토크나이제이션. 연속 15개 피처는 표준화 후 64차원 서브벡터로 매핑, 범주형은 임베딩 테이블로 차원 수를 각 범주 수의 로그에 비례하게 설정, Missingness 벡터와 연령/연도 포지션 임베딩을 추가한다. 최종 입력 차원은 252에서 384로 매핑된다. 단락 4: 학습 목표. 손실은 MSE와 7개 핀볼 손실의 합으로 정의되며, 로그 수입이 0인 경우는 log(1)=0으로 처리한다. AdamW로 최적화하며 cosine 스케줄링, warmup, 드롭아웃, stochastic depth를 적용한다. 단락 5: Split Conformal Calibration. Calibration 세트에서 각 horizon별 nonconformity si,t를 계산하고, 1-α 신뢰구간의 예측구간을 보정한다. Marginal 커버리지 보장은 exchangeability 하에서 유효하고, Demographic 서브그룹별 조건부 커버리지는 실용적 점검으로 보고된다. 단락 6: Lifetime Aggregation. M=500 몬테카를로 샘플로 각 test 개인에 대해 경로를 생성하고 Li를 계산한 뒤 α 수준의 분위수를 사용해 신뢰구간을 구한다.

주요 결과

주요 벤치마크 결과. horizon 10에서 CRPS 0.318로 GKOS 대비 31.9% 감소, horizon 20에서 0.328?으로 41.2% 개선되었다. 90% PICP은 90.3%(±0.4)로 명목치와 일치했고 worst-case Q1은 87.6%(±2.4pp)이다. Pinball loss도 h=10에서 0.147(0.002)로 GKOS 대비 31.3% 개선되었다. MAE/RMSE도 h=10에서 각각 0.512(0.007)/0.683(0.009)로 GKOS 대비 크게 향상되었다. 생애 소득 분포 재구성은 GKOS가 상단과 하단에 과도한 Mass를 가지는 반면, SAGA는 부분 관측 진실에 더 근접한 분포를 보였다. Lifetime 통계는 평균 12.43M SEK, 중앙값 10.84M SEK, P99 38.42M SEK로 GKOS 대비 차이가 있다. GKOS 대비 Gini 0.327(=partially observed truth 0.341)로 더 근접하며 상위 1%의 합도 8.3%로 관찰치 8.9%보다 근접하다.

기술 상세

아키텍처: 6-layer decoder-only Transformer, 8 heads, d=384. 입력 토큰은 continuous, categorical, missingness, age/year 포지셔널 임베딩의 5부분으로 구성된 252차원 벡터를 384 차원으로 매핑. 출력 헤드는 y_hat(로그 수입)과 7개의 분위수(q5, q10, q25, q50, q75, q90, q95)로 분리. 손실은 MSE와 7개 핀볼 손실의 합으로 최적화. Split conformal calibration는 horizon별 샘플에 대해 독립적으로 작동하는 horizon-stratified 비모수 커버리지 제어를 제공한다. Monte Carlo 경로는 M=500, 각 horizon에서 과거 샘플을 기반으로 로그 수입을 샘플하고, 지수화 및 할인가를 곱해 Li를 얻고 분위수로 신뢰구간을 추정한다.

실무 활용

실무 적용 가능성이 높으며, 스웨덴과 유사한 고정밀 패널 데이터에 적용 가능하다. SAGA는 downstream 정책 시나리오에서 예측 불확실성을 보정하고 예측 분포를 제공한다.

microsimulation 기반 정책 평가에서 lifetime 소득 및 세수 예측의 불확실성 보정
공공부문 재정 모델에서 다층 예측 구간과 분포 재구성
타국가의 유사 행정데이터에 대한 재학습 및 전이 학습
연금/보험 등 장기 금융상품의 위험 평가 및 커버리지 보정

코드 공개 여부: 공개

코드 저장소 보기

키워드

decoder-only transformer(디코더-전용 트랜스포머)split conformal calibration(스플릿 컨포말 보정)prediction intervals(예측 구간)longitudinal data(종단 데이터)Monte Carlo aggregation(몬테카를로 집계)CRPS(Continuous Ranked Probability Score)lifetime earnings Gini coefficient(생애 소득 지니 계수)