Timer-S1: 시리얼 스케일링을 적용한 10억 파라미터 규모의 시계열 파운데이션 모델

왜 중요한가

기존 시계열 모델의 규모 확장 한계를 '시리얼 스케일링'이라는 새로운 패러다임으로 극복하여 83억 파라미터까지 확장하는 데 성공했다. 이를 통해 금융, 기상, 에너지 등 다양한 산업 분야에서 별도의 학습 없이 즉시 사용 가능한 고성능 범용 시계열 예측 도구를 제공한다.

핵심 기여

시리얼 스케일링(Serial Scaling) 패러다임 도입

모델 아키텍처, 데이터셋, 학습 파이프라인의 세 차원에서 확장을 수행하여 기존 시계열 파운데이션 모델의 스케일링 병목 현상을 해결했다.

8.3B 규모의 희소 MoE 아키텍처 구축

83억 개의 파라미터를 보유하면서도 토큰당 7.5억 개만 활성화하는 TimeMoE 블록을 통해 연산 효율성과 모델 용량을 동시에 확보했다.

시리얼 토큰 예측(STP) 학습 목표 제안

시계열의 순차적 특성을 반영한 STP를 통해 장기 예측 시 발생하는 오차 누적 문제를 완화하고 추론 속도를 대폭 향상시켰다.

1조 개 시계열 포인트 규모의 TimeBench 구축

다양한 실제 도메인 데이터와 합성 데이터를 결합한 1조 개 규모의 코퍼스를 구축하고, 편향 완화를 위한 정교한 데이터 증강 기법을 적용했다.

핵심 아이디어 이해하기

기존 시계열 예측 모델은 모든 미래 시점을 한 번에 예측하는 병렬 방식이나, 한 단계씩 반복적으로 예측하는 자기회귀 방식을 사용했다. 병렬 방식은 장기적인 흐름을 놓치기 쉽고, 자기회귀 방식은 예측이 길어질수록 오차가 쌓이고 계산 비용이 너무 커지는 문제가 있다. Timer-S1은 Transformer의 Attention Mechanism을 기반으로 하되, 모델 내부에 가벼운 '시리얼 토큰 예측(STP)' 블록들을 직렬로 연결하여 이 문제를 해결한다.

STP 블록은 이전 단계의 예측 결과와 초기 입력 정보를 효율적으로 결합하여 다음 시점을 예측한다. 이는 전체 모델을 처음부터 다시 돌리지 않고도 순차적인 계산 효과를 얻게 해주어, 장기 예측 성능을 높이면서도 오차 누적을 억제한다. 또한 시계열 데이터의 도메인별 이질성을 해결하기 위해 Mixture-of-Experts(MoE) 구조를 도입하여, 데이터의 특성에 맞는 '전문가' 신경망이 선택적으로 작동하도록 설계했다.

결과적으로 83억 개의 방대한 파라미터를 효율적으로 학습할 수 있게 되었으며, 이는 시계열 데이터에서도 언어 모델처럼 규모가 커질수록 성능이 비약적으로 향상되는 스케일링 법칙이 작동함을 보여준다. 1조 개의 방대한 데이터를 학습한 이 모델은 복잡한 시계열 패턴을 범용적으로 이해하며, 새로운 데이터에 대해서도 높은 정확도로 미래를 예측한다.

방법론

전체 아키텍처는 Decoder-only Transformer 구조를 따르며, 인스턴스 정규화(Instance Re-normalization)와 패치 임베딩(Patch Embedding)을 통해 데이터를 전처리한다. [입력 시계열 → 평균/표준편차 정규화 → 패치 분할 → 임베딩 벡터] 순으로 연산이 이루어지며, 이는 데이터의 절대적 크기 차이를 제거하고 모델이 국소적 패턴 변화에 집중하게 한다.

핵심 메커니즘인 TimeSTP 블록은 이전 블록의 출력 임베딩 $h^{L+j-1}$ 과 초기 입력 임베딩 $h^0$ 를 입력으로 받아 Concat 연산을 수행한 뒤 선형 투영 행렬 $M$ 을 곱한다. [ $h^{L+j-1}, h^0$ → Concat → $M$ 곱셈 → 새로운 임베딩 $h^{L+j}$ ] 과정을 통해 모델은 과거의 맥락을 유지하면서도 점진적으로 미래 시점의 예측을 정교화한다. 이 구조는 추론 시 자기회귀적 롤링 없이 단 한 번의 연산으로 다중 시점 예측을 가능하게 한다.

학습은 2단계로 구성된다. 1단계 사전 학습에서는 모든 예측 시점에 동일한 가중치를 부여하는 STP 손실 함수를 사용한다. 2단계 사후 학습에서는 단기 예측의 정확도를 높이기 위해 가중 STP(wSTP) 손실을 적용한다. [예측 오차 $\mathcal{L}_{pred}$ → $1/\sqrt{j}$ 가중치 적용 → 가중 합산] 연산을 통해 예측 시점이 멀어질수록 커지는 불확실성을 수학적으로 반영하여 모델의 안정성을 높인다.

주요 결과

GIFT-Eval 벤치마크 평가 결과, Timer-S1은 MASE 0.693, CRPS 0.485를 기록하며 기존의 모든 시계열 파운데이션 모델을 제치고 최고 성능을 달성했다. 특히 이전 모델인 Timer-3 대비 MASE는 7.6%, CRPS는 13.2% 개선된 수치를 보였다.

예측 기간에 따른 분석에서 Timer-S1은 중장기(Medium & Long-term) 예측 작업에서 타 모델 대비 압도적인 우위를 점했다. 이는 시리얼 토큰 예측(STP) 구조가 장기 의존성을 캡처하고 오차 누적을 방지하는 데 매우 효과적임을 입증하는 결과다.

모델 규모 확장에 따른 성능 변화 분석에서는 파라미터 수가 83억 개에 도달할 때까지 성능이 지속적으로 향상되는 경향을 확인했다. 또한 1조 개의 데이터를 학습에 활용했을 때 제로샷 예측 능력이 극대화되어, 학습 데이터에 포함되지 않은 새로운 도메인의 시계열에 대해서도 강력한 일반화 성능을 나타냈다.

실무 활용

Timer-S1은 별도의 추가 학습 없이도 다양한 산업 분야의 수치 데이터를 즉시 예측할 수 있는 범용 시계열 모델이다. 대규모 파라미터와 데이터를 바탕으로 높은 제로샷 성능을 제공하여 실무 도입 비용을 획기적으로 낮춘다.

금융 시장의 주가 지수 및 개별 종목의 변동성 예측
전력망 및 신재생 에너지 발전소의 수요와 공급 최적화
제조 공정 센서 데이터 분석을 통한 설비 고장 사전 진단
기상 관측 데이터를 활용한 지역별 중장기 기온 및 강수량 예측

기술 상세

아키텍처는 24개의 TimeMoE 블록과 16개의 TimeSTP 블록으로 구성된다. 각 MoE 블록은 32개의 전문가 중 토큰당 2개만 활성화하는 Top-2 라우팅을 사용하며, QK-Norm과 Pre-RMSNorm을 도입하여 8.3B 규모의 대규모 학습 시 발생할 수 있는 수치적 불안정성을 해결했다.

시리얼 토큰 예측(STP)은 기존 LLM의 Multi-token Prediction(MTP)과 달리, 학습 시 미래 시점의 정답 데이터를 참조하지 않는 구조를 채택하여 Train-Test Gap을 제거했다. 또한 학습된 STP 블록을 추론 시에도 그대로 유지하여, 자기회귀적 롤링(Rolling) 과정 없이 단일 Forward Pass만으로 다중 패치 예측을 수행함으로써 추론 효율성을 극대화했다.

데이터셋인 TimeBench는 1조 320억 개의 시계열 포인트를 포함하며, ARIMA 모델 적합성 테스트를 통해 자기회귀 특성이 뚜렷한 고품질 데이터를 선별했다. 또한 주파수 변조를 위한 Resampling과 추세 반전을 위한 Value-Flipping 증강 기법을 적용하여 모델이 특정 주기나 추세에 편향되지 않도록 설계했다.

한계점

현재 모델은 외부 변수(Exogenous covariates)를 직접적으로 통합하여 처리하는 기능이 부족하여, 외부 요인에 민감한 다변량 시계열 데이터 학습에 한계가 있다. 또한 단기와 장기 예측 작업의 특성 차이를 완벽히 조율할 수 있는 적응형 표현 학습 기법의 추가 연구가 필요하다.

키워드

TSFM(시계열 파운데이션 모델)MoE(혼합 전문가)STP(시리얼 토큰 예측)TimeBench(타임벤치)Zero-shot Forecasting(제로샷 예측)