Kaggle JPX 도쿄 증권 거래소 예측 경진대회 우승자 발표: Shoki Sakai의 심플한 접근법 | AI Trends

Kaggle JPX 도쿄 증권 거래소 예측 경진대회 우승자 발표: Shoki Sakai의 심플한 접근법

선형 회귀와 핵심 주가 지표만을 활용한 단순하면서도 강력한 모델로 JPX 주가 수익률 예측 대회에서 우승한 Shoki Sakai의 전략을 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

금융 데이터와 같이 노이즈가 많은 환경에서는 복잡한 모델보다 데이터의 본질을 꿰뚫는 단순한 모델이 더 강력한 성능을 발휘할 수 있다. 고가(High)와 저가(Low)와 같은 핵심 지표의 특성 공학이 우승의 결정적 요인이었다.

배경

Kaggle에서 진행된 JPX 도쿄 증권 거래소 주가 예측 경진대회의 우승자인 Shoki Sakai가 자신의 모델과 전략을 공유하는 세션이다.

대상 독자

Kaggle 참여자, 금융 데이터 분석가, 머신러닝 엔지니어

의미 / 영향

이 발표는 데이터 분석 경험이 적더라도 핵심 피처에 집중한 단순한 모델링이 복잡한 딥러닝 모델보다 실전에서 더 효과적일 수 있음을 보여준다. 금융 ML 분야에서 과도한 엔지니어링보다 데이터의 본질적 특성을 파악하는 것이 우선임을 시사한다.

챕터별 상세

00:00

발표자 소개 및 경진대회 배경

시즈오카 대학 석사 과정인 Shoki Sakai가 JPX 도쿄 증권 거래소 예측 경진대회 우승 전략을 발표한다. 인지 과학과 어펙티브 컴퓨팅을 전공하며 데이터 분석 경험이 많지 않았음에도 불구하고 단순한 모델로 우승을 차지했다. 이번 경진대회는 약 2,000개 주식의 기대 수익률을 순위화하는 과제를 다루었다.

02:00

모델 개요 및 주요 특성 추출

Scikit-learn의 Linear Regression을 사용한 매우 단순한 모델을 구축했다. 주가 데이터 중 고가와 저가가 가장 중요한 변수임을 확인했다. 학습 시간은 1분 미만으로 매우 효율적이며, 복잡한 앙상블 기법보다 안정적인 성능을 보여주었다.

python

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

# 데이터 로드 및 결합
# ...(중략)

# 특성 생성
data['Daily_Range'] = data['High'] - data['Low']
data['Mean'] = (data['High'] + data['Low']) / 2

# 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 모델 학습
model = LinearRegression()
model.fit(X_scaled, y)

Scikit-learn을 사용하여 특성을 생성하고 표준화한 뒤 선형 회귀 모델을 학습시키는 핵심 로직

06:00

특성 공학 및 변수 분석 상세

총 11개의 특성을 사용했으며, 자체적으로 'Daily Range'(고가-저가 차이)와 'Mean'(고가와 저가의 평균)을 추가했다. Partial Dependence Plot 분석 결과, High와 Low는 타겟과 양의 상관관계를, Mean은 음의 상관관계를 보였다. 학습 전 모든 데이터에 대해 StandardScaler를 이용한 표준화를 수행하여 변수 간 척도를 맞추었다.

12:00

학습 방법 및 주요 발견 사항

2017년부터 2022년까지의 데이터를 학습에 사용했으며, COVID-19 전후의 시장 변화를 모두 포함하도록 기간을 설정했다. 복잡한 앙상블 모델보다 단순한 선형 회귀가 더 나은 성능을 보인 이유는 주가의 복잡한 변동 요인을 단순화하여 과적합을 방지했기 때문으로 분석된다. 특히 노이즈가 많은 금융 데이터에서 단순함의 미학이 증명되었다.

18:00

질의응답 및 추가 분석

Random Forest나 Boosting 계열 모델도 시도했으나 선형 회귀보다 유의미한 성능 향상이 없어 최종 모델로 선택했다. 금융 도메인 지식이 부족했기에 오히려 데이터 자체의 핵심 지표에 집중한 것이 주효했다. JPX에서 제공하는 API 활용 가능성과 데이터셋 내 결측치 처리의 어려움 등에 대해 논의하며 발표를 마무리했다.

실무 Takeaway

금융 데이터와 같이 노이즈가 많은 분야에서는 복잡한 모델보다 선형 회귀와 같은 단순한 모델이 과적합을 방지하고 일반화 성능을 높일 수 있다.
주가 예측에서 고가(High)와 저가(Low)의 변동 폭(Daily Range)은 수익률 예측에 매우 중요한 피처로 작용한다.
학습 데이터 기간 설정 시 COVID-19와 같은 거대 외부 충격 변수를 포함하는 것이 모델의 견고함을 확보하는 데 필수적이다.

언급된 리소스

DemoJPX Tokyo Stock Exchange Prediction Competition

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.