시계열 데이터 피처 엔지니어링: Lag 및 Rolling 피처 마스터하기

핵심 요약

시계열 데이터는 순차적인 특성 때문에 정적인 데이터와 다른 피처 엔지니어링 접근 방식이 필요하다. XGBoost나 Random Forest 같은 전통적인 머신러닝 모델은 시간적 흐름을 스스로 파악하지 못하므로, 과거의 값을 현재로 가져오는 Lag 피처와 일정 구간의 통계량을 계산하는 Rolling 피처를 생성해야 한다. 시계열 예측에서 가장 치명적인 실수인 데이터 누수(Data Leakage)를 방지하기 위해 .shift(1)를 활용하는 것이 필수적이다. 이러한 기법들은 판매량 예측, 수요 계획, 주가 분석 등 실무 환경에서 모델의 정확도를 극대화하는 핵심 요소로 작용한다.

배경

Python 및 Pandas 라이브러리 기초 지식, 머신러닝 기본 개념 (회귀, 트리 기반 모델), 시계열 데이터의 기본 특성에 대한 이해

대상 독자

시계열 예측 모델을 개발하고 피처 엔지니어링을 통해 성능을 개선하려는 데이터 사이언티스트 및 ML 엔지니어

의미 / 영향

이 가이드는 시계열 데이터의 특성을 이해하지 못해 발생하는 성능 저하와 데이터 누수 문제를 해결할 수 있는 표준적인 워크플로우를 정립한다. 특히 트리 기반 모델을 시계열 예측에 적용할 때 필수적인 데이터 변환 기법을 구체적인 코드로 제시하여 실무 적용성을 높인다.

섹션별 상세

시계열 피처 엔지니어링은 원시 시간 데이터를 모델이 학습 가능한 형태로 변환하는 필수 과정이다. 시계열 데이터는 과거의 관측치가 미래에 영향을 미치는 순차적 구조를 가지며, 일반적인 트리 기반 모델은 이러한 시간 정보를 내장하고 있지 않다. 따라서 Lag 피처와 Rolling 피처를 통해 과거의 이벤트를 나타내는 지표를 명시적으로 생성해 주어야 모델이 시간적 패턴을 인식할 수 있다.

Lag 피처는 특정 변수의 과거 값을 현재 시점으로 이동시켜 생성하는 피처이다. 예를 들어 오늘의 판매량을 예측하기 위해 어제(Lag 1), 일주일 전(Lag 7)의 데이터를 입력 변수로 사용하는 방식이다. 이는 복잡한 변환 없이도 계절성이나 주기적 패턴을 모델에 인코딩할 수 있게 해주며, 모든 머신러닝 모델에서 계산이 간편하고 해석이 명확하다는 장점이 있다.

Rolling 피처는 고정된 과거 창(Window) 내에서 평균, 표준편차, 최솟값, 최댓값 등의 통계량을 계산하여 생성한다. 이는 데이터의 노이즈를 제거하고 근본적인 성장 패턴을 드러내는 데 효과적이다. Rolling Mean은 추세 평활화에 주로 쓰이며, Rolling Standard Deviation은 특정 기간 내의 변동성이나 위험도를 측정하는 피처로 활용된다.

시계열 모델링에서 가장 치명적인 오류인 데이터 누수(Data Leakage)를 방지하기 위한 엄격한 절차가 필요하다. Rolling 계산을 수행하기 전 반드시 .shift(1)를 실행하여 현재 시점의 타겟 값이 통계량 계산에 포함되지 않도록 차단해야 한다. 즉, '오늘'의 예측을 위한 피처는 오직 '어제까지'의 데이터로만 구성되어야 하며, 이를 어길 경우 모델 성능이 실제보다 높게 측정되는 허위 결과가 발생한다.

실무 프로덕션 환경에서는 Lag와 Rolling 피처를 조합한 하이브리드 피처 세트를 구축하는 것이 일반적이다. 데이터의 특성에 따라 주간 단위(7, 14, 28일) Lag를 설정하거나, 노이즈가 심한 경우 더 긴 Window의 Rolling Mean을 적용하는 등 도메인 지식을 결합한 실험이 수반된다. 본문은 이러한 과정을 자동화하여 결측치(NaN) 처리까지 완료하는 Python 함수 구현 예시를 제공한다.

이미지 분석

Diagram
원시 데이터가 정제 및 변환 과정을 거쳐 피처로 생성되고, 모델링을 통해 최종 인사이트로 연결되는 과정을 시각화한다. 특히 'Clean and transform' 단계가 피처 생성의 핵심임을 보여준다.
데이터 소스부터 인사이트 도출까지의 전체 피처 엔지니어링 파이프라인 다이어그램이다.

Infographic
과거 시점(t-1, t-2, t-3)의 값들이 어떻게 현재 시점의 예측 인자로 사용되는지 표와 그래프로 나타낸다. 시간적 패턴과 추세를 포착하는 데 Lag 피처가 기여함을 명시한다.
시계열 데이터에서 Lag 피처가 생성되는 원리를 설명하는 인포그래픽이다.

Screenshot
sales 열을 기준으로 lag_1, lag_3, lag_7 피처가 생성된 모습을 보여준다. 데이터 이동으로 인해 초기 행들에 발생하는 NaN(결측치) 값을 확인할 수 있다.
Pandas를 이용해 구현한 Lag 피처의 출력 결과 데이터프레임이다.

Diagram
윈도우 크기가 3일 때, 특정 구간의 데이터를 합산하거나 평균을 내어 새로운 피처를 만드는 수식을 시각화한다. 노이즈 제거와 추세 파악에 유용함을 설명한다.
Rolling Window 기법을 이용해 평균과 합계를 계산하는 과정을 보여주는 다이어그램이다.

Screenshot
윈도우 크기 3과 7에 따른 통계량들이 계산된 결과를 보여준다. .shift(1)을 적용하여 현재 행의 sales 값이 계산에 포함되지 않았음을 수치로 증명한다.
Rolling Mean, Std, Max 등 다양한 이동 통계 피처가 적용된 데이터프레임 결과이다.

Screenshot
총 12개의 피처 컬럼이 생성되었으며, 데이터 누수 없이 정제된 최종 학습용 데이터셋의 형태를 보여준다. 원본 데이터 대비 행 수가 줄어든 것은 결측치 제거 결과임을 나타낸다.
Lag와 Rolling 피처를 모두 결합한 최종 엔지니어링 데이터의 구조와 샘플 행이다.

실무 Takeaway

시계열 피처 생성 시 반드시 .shift(1)을 적용하여 현재 시점의 데이터가 피처 계산에 포함되는 데이터 누수를 방지해야 한다.
ACF(자기상관함수)를 활용하여 통계적으로 유의미한 Lag 값을 식별하고, 비즈니스 주기(예: 주간 7일)에 맞춘 피처를 우선적으로 생성한다.
노이즈가 많은 시계열 데이터에는 Rolling Mean을 적용해 추세를 부각시키고, 변동성 파악이 필요한 경우 Rolling Std를 추가 피처로 활용한다.