핵심 요약
원본 타겟 대신 과거 시점과의 비율을 예측하는 타겟 변환 기법과 온라인 학습 전략이 성능 향상의 핵심이다. 신경망과 트리 기반 모델의 적절한 앙상블을 통해 예측의 견고함을 확보했다.
배경
발트해 지역의 에너지 프로슈머(에너지를 생산하면서 동시에 소비하는 주체)의 전력 생산 및 소비량을 예측하여 그리드 안정성을 높이고 불균형 비용을 줄이기 위한 Kaggle 경진대회이다.
대상 독자
시계열 예측 모델링에 관심 있는 데이터 과학자 및 Kaggle 참가자
의미 / 영향
이 솔루션은 에너지 그리드 관리에서 프로슈머의 행동을 예측할 때 단순한 수치 예측보다 비율과 차이를 활용하는 것이 변동성 대응에 효과적임을 입증했다. 특히 온라인 학습 파이프라인 구축을 통해 실시간으로 변화하는 에너지 시장 환경에 적응 가능한 모델 구조를 제시했다는 점에서 실무적 가치가 높다.
챕터별 상세
00:00
팀 소개 및 이전 경험의 활용
물리학 박사, 데이터 과학 석사 등 다양한 전문 배경을 가진 4인으로 팀을 구성했다. 이전 GoDaddy 시계열 예측 대회에서 얻은 경험을 바탕으로 이번 대회에서도 온라인 학습(Online Training) 전략을 채택했다. 물리학적 배경 지식은 데이터의 특성을 이해하고 피처를 설계하는 데 긍정적인 영향을 주었다.
- •물리학 및 데이터 과학 전문가들로 구성된 팀 구성
- •이전 Kaggle 시계열 대회 경험을 현재 솔루션에 이식
02:30
핵심 모델링 전략 및 타겟 변환
신경망(NN), LightGBM, CatBoost 세 가지 알고리즘을 사용하여 모델을 구축했다. 원본 타겟 값을 직접 예측하는 대신 현재 타겟과 48시간 전 타겟 사이의 비율(Target Ratio)을 예측하는 방식을 도입했다. 이 타겟 변환 기법을 통해 리더보드 점수를 약 1-2점 가량 향상하는 결과를 얻었다.
- •NN, LGBM, CatBoost의 하이브리드 모델링 수행
- •48시간 전 타겟 대비 비율을 예측하는 타겟 변환 적용
타겟 변환(Target Transformation)은 시계열 데이터의 변동성을 줄이기 위해 원본 수치 대신 비율이나 로그 값을 사용하는 기법이다.
04:30
피처 엔지니어링 및 선택 과정
검증 점수(Validation Score)를 기준으로 약 150개의 핵심 피처를 선별했다. 대부분의 피처는 과거 전력 수치 간의 비율이나 기상 조건 관련 비율로 구성했다. 특히 직접 일사량(Direct Solar Radiation)과 지표면 일사량(Surface Solar Radiation) 사이의 비율이 모델 성능에 중요한 변수로 작용했다.
- •검증 점수 기반의 엄격한 피처 선택으로 약 150개 변수 확정
- •일사량 관련 비율 피처가 예측 성능 향상에 기여
06:55
생산 및 소비 모델의 피처 중요도 차이
에너지 생산(Production) 모델에서는 과거 3-9일 전 동일 시간대의 평균 타겟값이 가장 중요하게 작용했다. 반면 에너지 소비(Consumption) 모델에서는 현재 타겟과 과거 특정 시점(n시간 전)의 타겟 차이(Difference)를 나타내는 변수들이 상위 중요도를 차지했다. 두 도메인의 특성이 다르므로 피처 설계 전략을 이원화했다.
- •생산 모델은 과거 동일 시간대 평균값에 높은 의존도 노출
- •소비 모델은 과거 수치와의 차이(T-diff) 변수가 핵심적 역할 수행
09:12
훈련 방법론 및 최종 앙상블
데이터가 정기적으로 업데이트되는 특성을 고려하여 Kaggle 커널 내에서 온라인 학습을 수행했다. 신경망은 4-폴드 교차 검증을, 트리 모델들은 6-폴드 교차 검증을 적용했다. 최종 예측값은 신경망 0.5, LightGBM 0.25, CatBoost 0.25의 가중치를 부여하여 산출했다.
- •최신 데이터 반영을 위한 Kaggle 커널 내 온라인 학습 수행
- •신경망에 가장 높은 가중치를 부여한 앙상블 전략 채택
온라인 학습(Online Training)은 새로운 데이터가 들어올 때마다 모델을 업데이트하는 방식으로, 시계열 데이터의 최신 트렌드를 반영하는 데 유리하다.
10:55
주요 발견 사항 및 데이터 노이즈 분석
온라인 학습이 오프라인 학습보다 약 1.0점 더 나은 성능을 보였다. 2021년 이전 데이터에는 노이즈가 많다고 판단하여 2021년 이후의 데이터만을 학습에 사용했을 때 결과가 개선됐다. 기상 예보 피처의 경우 미래 22-45시간 범위의 데이터만 사용하는 것이 가장 효과적이었다.
- •온라인 학습의 우수성 및 2021년 이후 데이터의 신뢰성 확인
- •기상 예보 데이터의 최적 활용 시간 범위 식별
실무 Takeaway
- 시계열 예측 시 원본 값 대신 과거 시점 대비 비율을 타겟으로 설정하면 성능이 향상될 수 있다.
- 데이터가 지속적으로 업데이트되는 환경에서는 온라인 학습 전략이 오프라인 학습보다 유리하다.
- 에너지 생산과 소비는 서로 다른 피처 중요도를 가지므로 각각 별도의 모델링 접근이 필요하다.
- 데이터의 노이즈를 식별하고 특정 시점 이후의 데이터만 사용하는 데이터 클렌징이 중요하다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료