핵심 요약
정교한 피처 엔지니어링을 바탕으로 XGBoost와 GRU를 앙상블하고, 최신 데이터를 반영하는 온라인 학습과 멀티 타겟 전략을 적용한 것이 우승의 핵심 요인이다.
배경
발틱 에너지 그리드 내 프로슈머의 전력 생산 및 소비를 예측하여 불균형 비용을 줄이고 그리드 안정성을 높이는 Enefit 경진대회의 우승자 발표 영상이다.
대상 독자
데이터 과학자, 머신러닝 엔지니어, 시계열 예측 경진대회 참가자
의미 / 영향
이 솔루션은 에너지 그리드와 같이 데이터가 실시간으로 축적되는 환경에서 온라인 학습의 실질적인 가치를 입증했다. 정교한 피처 엔지니어링과 모델 앙상블의 조합은 복잡한 시계열 예측 문제에 대한 표준적인 접근법을 제시하며, 실제 전력망 운영 비용 절감에 직접적으로 기여할 수 있는 기술적 토대를 보여준다.
챕터별 상세
00:00
최종 모델 구성 및 요약
최종 모델은 XGBoost와 GRU를 각각 0.65와 0.35의 가중치로 결합한 앙상블 형태이다. 모든 모델은 약 600개의 피처를 공유하며, 온라인 학습과 멀티 타겟 학습이 최종 성능 향상에 결정적인 역할을 했다. 단일 모델 성능은 XGBoost가 GRU보다 월등히 우수했으나, 두 모델을 앙상블했을 때 오프라인과 온라인 점수 모두 개선됐다.
- •XGBoost와 GRU의 가중치 앙상블 적용
- •온라인 학습 도입으로 리더보드 점수 1.2점 향상
- •멀티 타겟 학습을 통한 CV 점수 0.3점 개선
앙상블(Ensemble)은 여러 모델의 예측 결과를 결합하여 단일 모델보다 더 높은 정확도와 안정성을 얻는 기법이다.
01:39
피처 엔지니어링 전략
가스 데이터프레임을 제외한 모든 제공 테이블을 단순 병합하여 사용했다. 시간 관련 피처(시간, 월, 요일, 공휴일), 롤링 피처, 일일 통계, 특정 타임스탬프의 통계, 역사적 타겟 피처 등 총 600개의 피처를 생성했다. 가스 데이터는 교차 검증(CV) 점수 향상에 기여하지 않아 최종 피처 세트에서 제외했다.
- •시간 및 통계 기반의 600개 피처 활용
- •성능 향상에 도움이 되지 않는 가스 데이터 제외
- •공개 노트북에서 흔히 사용되는 피처들을 기본으로 구성
02:39
피처 선택 및 검증 전략
메모리 부족 문제와 실행 효율성을 해결하기 위해 초기 5,000개의 피처 중 XGBoost의 피처 중요도(Feature Importance) 기준 상위 600개만 선별했다. 검증 전략은 처음 500일 데이터를 학습에 사용하고 나머지 기간을 홀드아웃(Holdout) 세트로 구성했다. 이 방식은 교차 검증 점수와 리더보드 점수가 높은 상관관계를 보여 신뢰할 수 있는 지표가 됐다.
- •피처 중요도 기반의 상위 600개 피처 선별
- •500일 학습 및 잔여 기간 검증의 홀드아웃 전략
- •CV 점수와 리더보드 점수의 일관성 확보
홀드아웃(Holdout) 검증은 데이터를 학습용과 평가용으로 엄격히 분리하여 모델의 실제 성능을 추정하는 방법이다.
03:30
모델 학습 및 구조 상세
XGBoost는 파라미터 튜닝보다 피처 그룹별 성능 테스트에 집중하여 유효한 피처만 유지했다. GRU 모델은 24시간 단위의 텐서를 입력받아 2개 층의 양방향(Bidirectional) 구조를 거쳐 예측을 수행했다. 트랜스포머(Transformer)의 인코더 레이어도 시도했으나 GRU와 결합 시 결과가 좋지 않아 최종 앙상블에서는 제외했다.
- •XGBoost의 피처 그룹별 성능 최적화
- •24시간 시퀀스 데이터를 활용한 양방향 GRU 구조
- •트랜스포머 모델 시도 후 성능 저하로 제외
05:09
온라인 학습 및 멀티 타겟 트릭
최신 데이터의 중요성을 반영하기 위해 30일마다 모델을 총 3회 재학습시키는 온라인 학습 전략을 사용했다. 이는 리더보드 점수를 1.18점 높이는 성과를 냈다. 또한 타겟 값을 변환한 두 가지 형태의 멀티 타겟 학습을 진행하고 가중치 앙상블을 적용하여 검증 점수를 추가로 개선했다.
- •30일 주기 재학습을 통한 온라인 학습 전략
- •타겟 변환을 활용한 멀티 타겟 학습 기법
- •최신 데이터 반영이 예측 정확도 향상의 핵심
실무 Takeaway
- 시계열 예측에서 최신 데이터를 반영하는 온라인 학습(Online Learning)은 성능 향상에 매우 효과적이다.
- 트리 기반 모델(XGBoost)과 신경망 모델(GRU)의 앙상블은 서로의 예측 특성을 보완하여 안정적인 결과를 낸다.
- 수천 개의 피처를 생성한 후 중요도 기반으로 필터링하는 과정이 모델 효율성과 성능 사이의 균형을 잡는 데 필수적이다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료