딥 시계열 예측을 위한 선택적 학습 전략 (Selective Learning) | AI Trends

서울대학교 DSBA 연구실AI/ML

딥 시계열 예측을 위한 선택적 학습 전략 (Selective Learning)

시계열 데이터의 노이즈와 이상치로 인한 과적합 문제를 해결하기 위해 일반화 가능한 타임스텝만 선별적으로 학습하는 Dual-Mask 기반의 Selective Learning 프레임워크를 제안합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Uncertainty Mask와 Anomaly Mask로 구성된 Dual-Mask 메커니즘을 통해 예측이 불가능하거나 유해한 데이터를 필터링함으로써 시계열 예측 모델의 일반화 성능을 획기적으로 향상시켰다.

배경

기존의 시계열 예측 모델은 모든 타임스텝을 균일하게 학습하는 Empirical Risk Minimization(ERM) 방식을 사용하지만, 이는 데이터에 포함된 노이즈와 이상치에 모델이 과적합되는 문제를 야기합니다.

대상 독자

시계열 예측 모델의 일반화 성능 개선에 관심 있는 AI 연구자 및 데이터 사이언티스트

의미 / 영향

Selective Learning 전략은 실무 시계열 데이터에 흔히 존재하는 센서 노이즈와 이상치 문제를 해결하는 강력한 도구가 될 것이다. 모델 아키텍처를 변경하지 않고도 학습 방식의 개선만으로 예측 정확도를 높일 수 있어, 전력 수요 예측이나 금융 데이터 분석 등 높은 신뢰성이 요구되는 분야에 즉각적인 성능 향상을 가져올 것으로 기대된다.

챕터별 상세

00:00

시계열 예측의 일반화 문제와 Selective Learning의 필요성

시계열 데이터는 본질적으로 노이즈와 이상치를 포함하고 있어 모든 데이터를 학습할 경우 모델이 일반화되지 않는 패턴에 과적합된다. 이를 해결하기 위해 학습에 도움이 되는 타임스텝만 선별적으로 이용하는 Selective Learning 전략이 필요하다. 제안된 방식은 특정 모델에 국한되지 않는 Model-agnostic한 특성을 가지며, Dual-Mask 메커니즘을 통해 유해한 데이터를 동적으로 필터링한다.

01:49

시계열 예측 태스크의 정의와 데이터 구성

시계열 예측은 과거의 데이터(Look-back window)를 입력받아 미래의 값(Forecasting horizon)을 예측하는 함수를 학습하는 과정이다. 데이터셋은 슬라이딩 윈도우 방식으로 구성되며, 각 인스턴스는 입력값 X와 실제값 Y의 쌍으로 이루어진다. 학습 과정에서는 예측값과 실제값 사이의 MSE(Mean Squared Error) 손실을 최소화하는 방향으로 파라미터를 업데이트한다.

06:41

기존 학습 전략의 한계: ERM과 커리큘럼 러닝

기존의 Empirical Risk Minimization(ERM)은 모든 샘플과 변수가 일반화에 동일하게 기여한다고 가정하지만, 실제 시계열 데이터에는 무의미한 노이즈가 다수 포함되어 있다. 커리큘럼 러닝과 같은 기존의 샘플 선택 방식은 예측 길이와 같은 외부적 요인에만 집중할 뿐, 데이터 내부의 본질적인 불확실성을 고려하지 못한다. 따라서 특정 타임스텝이 본질적으로 일반화가 불가능하다는 점을 간과하는 문제가 발생한다.

11:54

Non-generalizable Timestep의 정의

학습에 방해가 되는 타임스텝은 크게 두 가지로 분류된다. 첫째는 시계열 내부의 잡음으로 인해 발생하는 Uncertain timestep으로, 높은 예측 불확실성을 가진다. 둘째는 센서 오류나 정책 개입 등 외부 요인으로 발생하는 Anomalous timestep으로, 예측값과 실제값 사이에 매우 큰 오차를 유발한다. 이러한 시점들을 학습에서 제외하는 것이 모델의 일반화 성능 향상에 필수적이다.

15:54

Uncertainty Mask: 잔차 엔트로피 기반 필터링

Uncertainty Mask는 각 타임스텝의 잔차 분포를 추정하여 불확실성을 측정한다. 슬라이딩 윈도우를 통해 동일 시점에 대해 여러 번의 예측이 수행되는 점을 활용하여 잔차의 엔트로피를 계산한다. 엔트로피가 상위 특정 퍼센트에 해당하는 타임스텝을 불확실한 패턴으로 간주하고 하드 스레숄딩을 통해 마스킹 처리한다. 이를 통해 모델이 본질적으로 예측하기 어려운 노이즈에 매몰되는 것을 방지한다.

26:47

Anomaly Mask: 경량 모델을 이용한 이상치 탐지

Anomaly Mask는 실제 이상치와 아직 학습되지 않은 패턴을 구분하기 위해 설계되었다. 경량 모델을 사용하여 각 타임스텝의 예측 하한선(Lower Bound)을 추정하고, 현재 모델의 잔차가 이 하한선보다 현저히 큰 경우를 이상치로 판단한다. 단순히 오차가 큰 데이터를 제거하는 것이 아니라, 이론적으로 줄이기 힘든 최소 오차 수준을 고려하여 진짜 이상치만을 선별적으로 마스킹한다.

33:20

Dual-Mask 기반의 최종 학습 프로세스

Uncertainty Mask와 Anomaly Mask를 결합하여 최종적인 학습 마스크를 생성한다. 두 마스크 중 하나라도 필터링 대상으로 판단하면 해당 타임스텝은 손실 계산에서 제외된다. 시계열의 각 변수마다 독립적인 마스크를 생성하는 Channel-independent 전략을 채택하여 변수별 특성을 반영한다. 이 과정을 통해 모델은 일반화 가능한 데이터에만 집중하여 파라미터를 업데이트한다.

34:14

실험 결과 및 성능 분석

8개의 벤치마크 데이터셋에서 Transformer, CNN, MLP 기반의 다양한 베이스라인 모델에 Selective Learning을 적용하여 실험했다. 모든 경우에서 예측 오차(MSE, MAE)가 유의미하게 감소했으며, 특히 과적합에 취약한 모델에서 성능 향상 폭이 컸다. 제로샷 예측 실험에서도 타 데이터셋으로의 일반화 능력이 크게 개선됨을 확인했다. 이는 제안된 방식이 데이터의 핵심 패턴을 더 잘 포착하도록 돕는다는 것을 입증한다.

실무 Takeaway

시계열 데이터의 모든 시점을 학습하는 것은 오히려 노이즈에 대한 과적합을 유발하여 일반화 성능을 저해할 수 있다.
잔차의 엔트로피를 측정함으로써 데이터의 본질적인 불확실성을 수치화하고 이를 학습에서 배제할 수 있다.
이론적 오차 하한선을 추정하여 미학습 패턴과 실제 이상치를 구분하는 것이 효과적인 샘플 선택의 핵심이다.
Selective Learning은 특정 모델 구조에 의존하지 않으므로 기존의 다양한 시계열 예측 파이프라인에 쉽게 통합 가능하다.

언급된 리소스

논문Selective Learning for Deep Time Series Forecasting (NeurIPS 2025)

GitHubSelective Learning Official GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 03.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.