Jane Street 실시간 시장 데이터 예측 경진대회 우승 솔루션 공유

Kaggle 그랜드마스터 Patrick Yam이 Jane Street 경진대회에서 우승한 Modified Axial Transformer 모델과 온라인 학습 기반의 실시간 금융 데이터 예측 솔루션을 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

복잡한 금융 데이터 예측을 위해 Axial Transformer 구조를 수정하여 자산 간 상호작용과 시간적 정보를 동시에 학습하고, 온라인 학습과 추론 최적화를 통해 실시간 제약 조건을 극복하며 우승을 차지했다.

배경

Jane Street에서 주최한 실시간 시장 데이터 예측 경진대회는 실제 거래 시스템의 데이터를 사용하여 금융 시장의 변동성을 예측하는 과제였다.

대상 독자

퀀트 트레이딩, 시계열 예측, Kaggle 경진대회 참여자 및 AI/ML 엔지니어

의미 / 영향

이 솔루션은 실시간 금융 데이터 예측에서 모델 아키텍처의 혁신뿐만 아니라 온라인 학습과 추론 최적화가 실질적인 우승의 핵심임을 보여주었다. 특히 병렬 추론 기법은 지연 시간이 중요한 실제 퀀트 트레이딩 시스템 구축에 직접적으로 적용 가능한 실무적 가치를 지닌다. 또한 Multi-task learning에서 타겟 간 상관관계를 활용한 가중치 설계 방식은 다양한 시계열 예측 문제에 응용될 수 있다.

챕터별 상세

00:00

솔루션 요약 및 배경

Kaggle 그랜드마스터 Patrick Yam이 Jane Street 경진대회 우승 솔루션을 발표했다. 주요 전략은 Modified Axial Transformer 모델 사용, 시간 관련 특성 추가, 고정 에포크 기반의 Seed Averaging, 하이퍼파라미터 튜닝을 포함한 온라인 학습, 그리고 병렬 추론을 위한 인퍼런스 모듈 재작성이다. 금융 데이터의 특성인 Fat-tailed distribution과 Non-stationary 특성을 극복하는 데 초점을 맞췄다.

•Modified Axial Transformer 모델을 핵심 아키텍처로 채택했다
•실시간 데이터 처리를 위해 온라인 학습과 추론 최적화를 병행했다

01:04

특성 공학 및 데이터 전처리

기존의 모든 특성을 유지하면서 시간 관련 특성인 Time of Day(TOD)를 추가했다. TOD는 0에서 1 사이의 값으로 리스케일링한 후 Gaussian distribution으로 변환하여 모델이 시간적 맥락을 더 잘 이해하도록 설계했다. 수치형 데이터에 대해서는 극단값을 제거하기 위한 Clipping과 단순 표준화를 적용했으며, 범주형 데이터는 Embedding 레이어를 통해 수치화했다.

•Time of Day 특성을 Gaussian 변환하여 시간적 맥락을 주입했다
•수치형 데이터의 안정성을 위해 Clipping과 표준화를 수행했다

03:14

Modified Axial Transformer 아키텍처

모델은 자산 간 상호작용을 학습하는 Assets Mixer와 시간적 정보를 처리하는 Time Series Mixer로 구성된다. Axial Attention 구조를 변형하여 시계열 축의 Self-attention을 GRU 레이어로 교체했다. 이는 시계열의 순차적 특성을 더 효율적으로 포착하기 위함이다. Assets Mixer에서는 Self-attention, Mean, Median 풀링 등을 선택적으로 사용할 수 있으며, 최종적으로 Fully Connected 레이어를 통해 예측값을 출력한다.

•시계열 축의 Self-attention을 GRU로 교체하여 순차적 정보 처리를 강화했다
•Assets Mixer를 통해 서로 다른 자산 간의 상관관계를 학습했다

Axial Attention은 2D 데이터를 처리할 때 행과 열 방향으로 나누어 어텐션을 수행함으로써 연산 복잡도를 줄이는 기법이다.

08:24

학습 전략 및 손실 함수 설계

Multi-task learning을 적용하여 메인 타겟 외에도 여러 타겟을 동시에 학습했다. 각 타겟의 가중치는 메인 타겟과의 상관관계에 따라 설정했으며, ChatGPT를 활용해 가중치 조합을 최적화했다. 손실 함수는 경진대회 평가 지표인 R-squared를 직접 최적화하도록 설계했다. 타겟마다 손실 값의 스케일이 다르기 때문에 각 타겟의 손실을 해당 시점의 손실 값으로 나누어 정규화하는 기법을 사용했다.

•타겟 간 상관관계를 기반으로 가중치를 부여한 Multi-task learning을 수행했다
•R-squared 지표를 직접 최적화하며 타겟별 손실 스케일을 정규화했다

15:50

온라인 학습 및 검증 방법론

금융 데이터의 시간에 따른 변화에 대응하기 위해 매일 새로운 데이터로 모델을 3단계씩 업데이트하는 온라인 학습을 수행했다. Adam 옵티마이저를 사용했으며, Optuna로 튜닝된 Beta1=0.8, Beta2=0.95 파라미터를 적용했다. 실험 결과 온라인 학습을 적용했을 때 적용하지 않았을 때보다 성능이 약 1% 향상되었으며, 이는 금융 도메인에서 매우 큰 차이이다. 검증 시에는 실제 리더보드 환경과 유사하게 시계열 순서를 유지하며 테스트했다.

•매일 새로운 데이터로 모델을 업데이트하여 데이터의 비정상성을 극복했다
•온라인 학습 적용 시 성능이 약 1% 향상되는 유의미한 결과를 얻었다

17:30

추론 최적화: Fast Model Inference

9시간이라는 엄격한 추론 시간 제한을 지키기 위해 병렬 추론 모듈을 구현했다. 17개의 서로 다른 시드 모델 가중치를 하나로 쌓고(Stack), PyTorch의 `nn.Linear` 대신 `torch.einsum`을 사용하여 여러 모델의 추론을 한 번에 처리했다. 또한 GRU의 마지막 Hidden state를 캐싱하여 매번 처음부터 계산하지 않도록 최적화했다. 그 결과 17개 모델의 앙상블과 온라인 학습을 포함하고도 2.5시간 만에 추론을 완료했다.

•torch.einsum을 활용해 여러 모델의 가중치를 병렬로 처리하여 추론 속도를 높였다
•GRU Hidden state 캐싱을 통해 시계열 데이터 처리의 중복 계산을 제거했다

실무 Takeaway

Axial Transformer 구조에서 시계열 축의 Self-attention을 GRU로 교체하여 금융 시계열의 순차적 특성을 더 효과적으로 포착했다
금융 데이터의 비정상성(Non-stationarity)을 해결하기 위해 매일 모델을 업데이트하는 온라인 학습 전략이 성능 향상에 결정적이었다
추론 시간 제한을 극복하기 위해 torch.einsum을 이용한 가중치 스태킹과 병렬 처리를 구현하여 앙상블 모델의 효율성을 극대화했다

언급된 리소스

DemoJane Street Real-Time Market Data Forecasting Competition

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 21.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Jane Street 실시간 시장 데이터 예측 경진대회 우승 솔루션 공유 | AI Trends