이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
금융 데이터의 복잡한 상관관계를 Axial Attention으로 모델링하고, 매일 수행하는 온라인 학습과 고속 추론 엔진 최적화를 통해 실시간 제약 조건 하에서 높은 성능을 달성했다.
배경
Jane Street 실시간 시장 데이터 예측 대회는 실제 거래 시스템의 데이터를 활용해 금융 시장의 급격한 변화와 비정상성을 예측하는 과제였다.
대상 독자
금융 AI 모델러, 시계열 데이터 분석가, Kaggle 참가자
의미 / 영향
이 솔루션은 금융 도메인의 비정상성 문제를 해결하기 위한 실전적인 딥러닝 파이프라인을 제시한다. 특히 실시간 제약 조건이 있는 환경에서 정확도와 속도를 동시에 확보하는 설계 패턴은 양적 투자(Quant Trading) 시스템 구축에 즉시 적용 가능하다.
챕터별 상세
00:22
솔루션 요약 및 핵심 접근법
금융 시장의 비정상성 문제를 해결하기 위해 Modified Axial Transformer 모델을 도입했다. 표준 Axial Attention에서 시간축 셀프 어텐션 레이어 하나를 GRU 레이어로 교체하여 시계열 특성을 강화했다. 고정된 에포크에서의 시드 앙상블과 하이퍼파라미터 튜닝을 거친 온라인 학습을 적용했다. 추론 모듈을 병렬화하여 9시간이라는 엄격한 시간 제한 내에 여러 시드의 모델을 실행할 수 있도록 재작성했다.
- •시간축 어텐션을 GRU로 대체하여 시계열 처리 효율성 증대
- •온라인 학습을 통해 시간에 따른 모델 성능 저하 방지
- •병렬 추론 모듈 구현으로 앙상블 모델의 실행 속도 확보
02:07
피처 엔지니어링 및 데이터 전처리
피처 엔지니어링은 최소화하고 시간 관련 변수 추가에 집중했다. 하루 중 시간을 나타내는 'Time of Day' 피처를 생성하고 이를 0에서 1 사이로 스케일링한 뒤 Gaussian Rank 변환을 적용했다. 모든 수치형 피처에 대해 훈련 데이터의 글로벌 평균과 표준편차를 이용한 단순 표준화를 수행했다. 이상치 제거를 위해 입력값에 클리핑을 적용하고 범주형 변수는 임베딩 레이어를 통해 수치화했다.
- •Time of Day 변수에 Gaussian Rank 변환 적용
- •글로벌 통계량을 활용한 단순 표준화 기법 사용
- •범주형 변수를 위한 전용 임베딩 레이어 구성
02:37
모델 아키텍처: Axial Attention과 2D Transformer
모델은 자산(Asset) 축과 시간(Time) 축을 독립적으로 처리하는 2D 구조를 가진다. 자산 믹서(Asset Mixer)는 셀프 어텐션을 사용하여 서로 다른 자산 간의 상호작용을 학습한다. 시간 믹서(Time Mixer)는 GRU를 사용하여 시계열적 흐름을 파악하며, 이때 rnn_multiplier 파라미터를 통해 시간축 연산에 더 많은 리소스를 할당했다. 이 구조는 모델이 자산 간의 상관관계와 개별 자산의 역사적 패턴을 동시에 이해하게 한다.
- •자산축과 시간축을 분리하여 처리하는 Axial Attention 구조
- •시간축 처리에 GRU를 사용하여 연산 효율과 성능의 균형 확보
- •rnn_multiplier를 통한 시간축 모듈의 히든 유닛 크기 최적화
python
class ParamModel(nn.Module):
def __init__(self, config):
super().__init__()
self.config = config
self.rnn_multiplier = config.get('rnn_multiplier', 1)
# ... (중략)
self.asset_mixer = AxialAttention(dim, axis=1)
self.time_mixer = nn.GRU(dim * self.rnn_multiplier, dim * self.rnn_multiplier, batch_first=True)
def forward(self, x, h=None):
# x shape: (batch, time, asset, feature)
x = self.asset_mixer(x)
x = x.view(batch * asset, time, -1)
x, h = self.time_mixer(x, h)
return x, hAxial Attention과 GRU를 결합하여 자산 간 관계와 시간적 흐름을 동시에 처리하는 모델 구조 예시
07:49
학습 전략 및 손실 함수 설계
주 타겟 외에 여러 보조 타겟을 함께 학습하는 멀티태스크 학습을 적용했다. 각 타겟의 가중치는 주 타겟과의 상관관계에 기반하여 설정했으며, ChatGPT를 활용해 가중치 조합을 실험적으로 결정했다. 손실 함수는 대회의 평가지표인 R-squared를 직접 최적화하도록 설계했다. 타겟마다 손실의 스케일이 다르기 때문에 각 타겟의 손실값을 해당 시점의 손실값으로 나누어 스케일을 맞추는 근사화 기법을 사용했다.
- •상관관계 기반의 타겟별 가중치 할당 및 멀티태스크 학습
- •R-squared 지표를 직접 최적화하는 손실 함수 구현
- •손실값 기반의 동적 스케일링으로 학습 안정성 확보
12:30
온라인 학습과 검증 방법론
금융 데이터의 특성상 시간이 지날수록 모델 성능이 급격히 하락하는 현상을 확인했다. 이를 방지하기 위해 매일 새로운 데이터로 모델을 3단계씩 업데이트하는 온라인 학습을 수행했다. 검증 시에는 실제 리더보드 환경과 유사하게 과거 데이터를 오프라인 학습에, 최근 데이터를 온라인 학습 및 평가에 할당했다. 실험 결과 온라인 학습을 적용했을 때 리더보드 점수가 약 1% 가량 상승하며 모델의 견고함이 유지됐다.
- •매일 3 스텝의 업데이트를 수행하는 온라인 학습 파이프라인
- •온라인 학습 미적용 시 발생하는 모델 성능 성능 저하(Decay) 확인
- •시드 에버리징을 통해 교차 검증의 불안정성 극복
16:59
고속 추론을 위한 최적화 기법
대회 규정인 9시간 내에 17개의 시드 모델을 앙상블하기 위해 추론 엔진을 최적화했다. PyTorch의 nn.Linear 레이어를 einsum 모듈로 교체하고 여러 모델의 가중치를 하나로 쌓아(Stack) 병렬 연산이 가능하게 했다. GRU의 마지막 히든 상태를 캐싱하여 매번 처음부터 연산하지 않도록 설계했다. 이러한 최적화를 통해 온라인 학습을 포함하고도 전체 추론 시간을 2.5시간으로 단축했다.
- •einsum과 가중치 스태킹을 이용한 모델 병렬 추론
- •GRU 히든 상태 캐싱을 통한 시계열 연산 가속
- •온라인 학습을 포함한 대규모 앙상블의 실시간 처리 성공
실무 Takeaway
- 금융 시계열 데이터에서 시간축과 자산축의 상관관계를 동시에 모델링하기 위해 Axial Attention 구조가 효과적이다.
- 모델 성능의 시간적 퇴화를 막기 위해 실시간 데이터 유입에 따른 온라인 학습(Online Learning) 업데이트가 필수적이다.
- 제한된 컴퓨팅 자원 환경에서 대규모 앙상블을 운영하려면 einsum과 가중치 병렬화 같은 저수준 최적화가 필요하다.
- 멀티태스크 학습 시 타겟 간 상관관계를 고려한 가중치 설정이 모델의 일반화 성능을 높인다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 03. 24.수집 2026. 03. 24.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.