이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
금융 데이터와 같이 노이즈가 많은 환경에서는 복잡한 모델보다 데이터의 본질을 꿰뚫는 단순한 모델이 더 강력한 성능을 발휘할 수 있다. 고가(High)와 저가(Low)와 같은 핵심 지표의 특성 공학이 우승의 결정적 요인이었다.
배경
Kaggle에서 진행된 JPX 도쿄 증권 거래소 주가 예측 경진대회의 우승자인 Shoki Sakai가 자신의 모델과 전략을 공유하는 세션이다.
대상 독자
Kaggle 참여자, 금융 데이터 분석가, 머신러닝 엔지니어
의미 / 영향
이 발표는 데이터 분석 경험이 적더라도 핵심 피처에 집중한 단순한 모델링이 복잡한 딥러닝 모델보다 실전에서 더 효과적일 수 있음을 보여준다. 금융 ML 분야에서 과도한 엔지니어링보다 데이터의 본질적 특성을 파악하는 것이 우선임을 시사한다.
챕터별 상세
00:00
발표자 소개 및 경진대회 배경
시즈오카 대학 석사 과정인 Shoki Sakai가 JPX 도쿄 증권 거래소 예측 경진대회 우승 전략을 발표한다. 인지 과학과 어펙티브 컴퓨팅을 전공하며 데이터 분석 경험이 많지 않았음에도 불구하고 단순한 모델로 우승을 차지했다. 이번 경진대회는 약 2,000개 주식의 기대 수익률을 순위화하는 과제를 다루었다.
- •발표자 Shoki Sakai는 데이터 분석 비전공자임에도 Kaggle 우승 달성
- •JPX 경진대회는 일본 시장 내 2,000개 주식의 수익률 랭킹 예측이 목표
02:00
모델 개요 및 주요 특성 추출
Scikit-learn의 Linear Regression을 사용한 매우 단순한 모델을 구축했다. 주가 데이터 중 고가와 저가가 가장 중요한 변수임을 확인했다. 학습 시간은 1분 미만으로 매우 효율적이며, 복잡한 앙상블 기법보다 안정적인 성능을 보여주었다.
- •Scikit-learn의 Linear Regression 알고리즘 채택
- •학습 시간이 1분 미만으로 매우 빠르고 효율적인 파이프라인 구축
- •주가 데이터의 High와 Low 지표가 모델의 핵심 변수로 작용
python
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
# 데이터 로드 및 결합
# ...(중략)
# 특성 생성
data['Daily_Range'] = data['High'] - data['Low']
data['Mean'] = (data['High'] + data['Low']) / 2
# 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 모델 학습
model = LinearRegression()
model.fit(X_scaled, y)Scikit-learn을 사용하여 특성을 생성하고 표준화한 뒤 선형 회귀 모델을 학습시키는 핵심 로직
06:00
특성 공학 및 변수 분석 상세
총 11개의 특성을 사용했으며, 자체적으로 'Daily Range'(고가-저가 차이)와 'Mean'(고가와 저가의 평균)을 추가했다. Partial Dependence Plot 분석 결과, High와 Low는 타겟과 양의 상관관계를, Mean은 음의 상관관계를 보였다. 학습 전 모든 데이터에 대해 StandardScaler를 이용한 표준화를 수행하여 변수 간 척도를 맞추었다.
- •Daily Range와 Mean이라는 두 가지 파생 변수 생성
- •Partial Dependence Plot을 통해 변수와 수익률 간의 상관관계 시각화
- •StandardScaler를 활용한 데이터 전처리로 모델 안정성 확보
12:00
학습 방법 및 주요 발견 사항
2017년부터 2022년까지의 데이터를 학습에 사용했으며, COVID-19 전후의 시장 변화를 모두 포함하도록 기간을 설정했다. 복잡한 앙상블 모델보다 단순한 선형 회귀가 더 나은 성능을 보인 이유는 주가의 복잡한 변동 요인을 단순화하여 과적합을 방지했기 때문으로 분석된다. 특히 노이즈가 많은 금융 데이터에서 단순함의 미학이 증명되었다.
- •COVID-19 변동성을 포함하는 2017-2022년 데이터 학습 기간 설정
- •단순 모델이 복잡한 모델보다 과적합 방지에 유리함을 확인
- •금융 시장의 다양한 변수 중 가격 지표 자체의 중요성 재확인
18:00
질의응답 및 추가 분석
Random Forest나 Boosting 계열 모델도 시도했으나 선형 회귀보다 유의미한 성능 향상이 없어 최종 모델로 선택했다. 금융 도메인 지식이 부족했기에 오히려 데이터 자체의 핵심 지표에 집중한 것이 주효했다. JPX에서 제공하는 API 활용 가능성과 데이터셋 내 결측치 처리의 어려움 등에 대해 논의하며 발표를 마무리했다.
- •Random Forest 및 Boosting 모델과의 비교 실험 수행 결과 공유
- •도메인 지식의 부재를 데이터 중심의 단순한 접근법으로 극복
- •데이터셋 내 결측치 처리가 분석 과정에서 가장 큰 난관이었음을 언급
실무 Takeaway
- 금융 데이터와 같이 노이즈가 많은 분야에서는 복잡한 모델보다 선형 회귀와 같은 단순한 모델이 과적합을 방지하고 일반화 성능을 높일 수 있다.
- 주가 예측에서 고가(High)와 저가(Low)의 변동 폭(Daily Range)은 수익률 예측에 매우 중요한 피처로 작용한다.
- 학습 데이터 기간 설정 시 COVID-19와 같은 거대 외부 충격 변수를 포함하는 것이 모델의 견고함을 확보하는 데 필수적이다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.