핵심 요약
복잡한 금융 데이터 예측을 위해 Axial Transformer 구조를 수정하여 자산 간 상호작용과 시간적 정보를 동시에 학습하고, 온라인 학습과 추론 최적화를 통해 실시간 제약 조건을 극복하며 우승을 차지했다.
배경
Jane Street에서 주최한 실시간 시장 데이터 예측 경진대회는 실제 거래 시스템의 데이터를 사용하여 금융 시장의 변동성을 예측하는 과제였다.
대상 독자
퀀트 트레이딩, 시계열 예측, Kaggle 경진대회 참여자 및 AI/ML 엔지니어
의미 / 영향
이 솔루션은 실시간 금융 데이터 예측에서 모델 아키텍처의 혁신뿐만 아니라 온라인 학습과 추론 최적화가 실질적인 우승의 핵심임을 보여주었다. 특히 병렬 추론 기법은 지연 시간이 중요한 실제 퀀트 트레이딩 시스템 구축에 직접적으로 적용 가능한 실무적 가치를 지닌다. 또한 Multi-task learning에서 타겟 간 상관관계를 활용한 가중치 설계 방식은 다양한 시계열 예측 문제에 응용될 수 있다.
챕터별 상세
솔루션 요약 및 배경
- •Modified Axial Transformer 모델을 핵심 아키텍처로 채택했다
- •실시간 데이터 처리를 위해 온라인 학습과 추론 최적화를 병행했다
특성 공학 및 데이터 전처리
- •Time of Day 특성을 Gaussian 변환하여 시간적 맥락을 주입했다
- •수치형 데이터의 안정성을 위해 Clipping과 표준화를 수행했다
Modified Axial Transformer 아키텍처
- •시계열 축의 Self-attention을 GRU로 교체하여 순차적 정보 처리를 강화했다
- •Assets Mixer를 통해 서로 다른 자산 간의 상관관계를 학습했다
Axial Attention은 2D 데이터를 처리할 때 행과 열 방향으로 나누어 어텐션을 수행함으로써 연산 복잡도를 줄이는 기법이다.
학습 전략 및 손실 함수 설계
- •타겟 간 상관관계를 기반으로 가중치를 부여한 Multi-task learning을 수행했다
- •R-squared 지표를 직접 최적화하며 타겟별 손실 스케일을 정규화했다
온라인 학습 및 검증 방법론
- •매일 새로운 데이터로 모델을 업데이트하여 데이터의 비정상성을 극복했다
- •온라인 학습 적용 시 성능이 약 1% 향상되는 유의미한 결과를 얻었다
추론 최적화: Fast Model Inference
- •torch.einsum을 활용해 여러 모델의 가중치를 병렬로 처리하여 추론 속도를 높였다
- •GRU Hidden state 캐싱을 통해 시계열 데이터 처리의 중복 계산을 제거했다
실무 Takeaway
- Axial Transformer 구조에서 시계열 축의 Self-attention을 GRU로 교체하여 금융 시계열의 순차적 특성을 더 효과적으로 포착했다
- 금융 데이터의 비정상성(Non-stationarity)을 해결하기 위해 매일 모델을 업데이트하는 온라인 학습 전략이 성능 향상에 결정적이었다
- 추론 시간 제한을 극복하기 위해 torch.einsum을 이용한 가중치 스태킹과 병렬 처리를 구현하여 앙상블 모델의 효율성을 극대화했다
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.