서울대학교 DSBA 연구실AI/ML

선택적 표현 공간을 통한 시계열 예측 강화: 패치 관점의 접근 (NeurIPS 2025)

기존 패칭 방식의 한계를 극복하기 위해 예측에 유의미한 패치만을 선택하고 재조립하는 SRS 모듈과 이를 활용한 SRSNet을 제안한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

SRS 모듈은 예측에 유의미한 패치를 선택하고 동적으로 재조립하여 입력 표현 공간을 최적화하며, 이를 통해 단순한 MLP 구조만으로도 기존 SOTA 모델들을 능가하는 성능을 보여준다.

배경

시계열 예측 분야에서 Vision Transformer의 영향을 받아 데이터를 패치 단위로 나누는 방식이 널리 쓰이고 있으나, 고정된 스트라이드로 인해 발생하는 정보 손실과 노이즈 혼입 문제가 존재한다.

대상 독자

시계열 예측 모델 연구자 및 데이터 사이언티스트

의미 / 영향

기존의 다양한 패치 기반 시계열 모델에 SRS 모듈을 플러그인 형태로 즉시 적용하여 성능을 개선할 수 있다. 특히 연산 비용 대비 성능 향상 폭이 커서 실무 환경의 대규모 시계열 데이터 처리 시 비용 효율적인 대안이 될 것으로 기대된다. 복잡한 모델 설계보다 좋은 입력 표현을 만드는 것이 중요하다는 인사이트를 제공한다.

챕터별 상세

00:00

기존 패칭 방식의 한계와 SRS의 등장 배경

시계열 데이터를 고정된 길이의 패치로 나누는 기존 방식은 중요한 패턴이 패치 경계에 걸려 정보가 손실되거나 예측에 도움이 되지 않는 노이즈 구간까지 토큰으로 포함되는 문제가 있다. 이를 해결하기 위해 예측에 유용한 패치들만을 유연하게 구성하는 선택적 표현 공간(Selective Representation Space) 개념을 제안했다. SRS 모듈은 기존 패치 기반 백본 모델에 쉽게 결합할 수 있는 플러그 앤 플레이 형태로 설계되었다.

•고정된 스트라이드 패칭은 비정상성 구간을 구분하지 못함
•유효 정보와 노이즈가 한 패치에 섞여 표현력이 저하됨
•SRS는 입력 표현 공간 자체를 적응적으로 재구성함

시계열 데이터에서 패칭은 긴 데이터를 일정 구간씩 묶어 토큰화함으로써 연산 효율을 높이는 기법이다.

01:51

시계열 예측의 기본 개념과 패치 기반 연구 흐름

시계열 예측은 과거 관측값인 Look-back window를 입력받아 미래 값인 Forecasting horizon을 예측하는 문제이다. 최근에는 단일 시점의 제한된 정보량을 극복하기 위해 여러 시점을 묶어 패치 토큰으로 만드는 방식이 PatchTST 등을 통해 대중화되었다. 하지만 실제 시계열 데이터는 주기가 변하거나 분포가 이동하는 비정상성을 띠고 있어, 고정된 위치에서 패치를 추출하는 방식은 성능 저하의 원인이 된다.

•Look-back window와 Forecasting horizon의 정의
•PatchTST 등 최신 패치 기반 모델들의 발전 과정
•실제 데이터의 비정상성이 기존 패칭에 미치는 부정적 영향

비정상성(Non-stationarity)은 시계열의 통계적 특성이 시간에 따라 변하는 성질을 말한다.

07:49

SRS 모듈의 핵심 아키텍처와 동작 원리

SRS 모듈은 크게 세 단계로 구성된다. 첫째, Selective Patching은 전체 구간에서 예측에 유의미한 n개의 패치를 학습을 통해 선택한다. 둘째, Dynamic Reassembly는 선택된 패치들의 순서를 적응적으로 재배열한다. 셋째, Adaptive Fusion은 SRS로 구성한 패치 임베딩과 기존 인접 패치 임베딩을 결합하여 최종 입력 표현을 생성한다.

•Selective Patching을 통한 유의미한 정보 추출
•Dynamic Reassembly를 통한 패치 간 순서 최적화
•Adaptive Fusion을 통한 기존 정보와의 보완적 결합

11:38

미분 가능한 패치 선택을 위한 Gradient Gate 기법

패치를 선택하는 Argmax 연산은 미분이 불가능하여 역전파가 끊기는 문제가 발생한다. 이를 해결하기 위해 Gradient Gate라는 기법을 도입했다. 순전파에서는 Argmax로 정확한 패치를 선택하여 성능을 유지하고, 역전파에서는 선택된 패치의 점수를 활용해 스코어러 네트워크까지 그래디언트가 흐르도록 우회 경로를 생성했다. 이를 통해 모델이 어떤 패치가 중요한지를 스스로 학습할 수 있게 되었다.

•Argmax 연산의 미분 불가능성 문제 해결
•순전파의 정확도와 역전파의 학습 가능성을 동시에 확보
•스코어러 네트워크를 통한 패치 중요도 자동 학습

딥러닝에서 이산적인 선택(Discrete selection)은 미분이 불가능하여 별도의 우회 기법이 필요하다.

20:26

패치 재조립과 적응적 융합을 통한 표현력 극대화

Dynamic Reassembly 단계에서는 선택된 패치들을 중요도 순으로 정렬하여 모델이 시계열의 구조적 관계를 더 잘 파악하게 한다. Adaptive Fusion은 기존의 인접 패치 정보와 SRS가 선택한 정보를 Convex Combination 방식으로 결합한다. 이때 가중치 알파를 통해 데이터의 특성에 따라 두 정보의 비중을 유연하게 조절하며, 위치 정보를 보존하기 위해 Positional Embedding을 추가로 적용한다.

•패치 순서 재배열을 통한 시계열 구조 파악 능력 향상
•알파 가중치를 이용한 인접 패치와 선택 패치의 적응적 융합
•재조립된 패치의 위치 정보 유실 방지를 위한 임베딩 추가

Convex Combination은 두 벡터를 가중치 합이 1이 되도록 섞는 방식이다.

24:37

SRSNet의 성능 검증 및 효율성 분석

8개의 벤치마크 데이터셋에서 실험한 결과, SRS 모듈에 단순한 MLP 헤드만 붙인 SRSNet이 기존의 복잡한 Transformer 기반 모델들보다 우수한 성능을 보였다. 특히 기존 PatchTST나 Crossformer에 SRS 모듈을 추가했을 때 성능이 일관되게 향상됨을 확인했다. 또한, SRS 모듈은 추가되는 파라미터와 연산량이 매우 적어 실용적인 측면에서도 효율적임이 입증되었다.

•다양한 데이터셋에서 기존 SOTA 모델 대비 우수한 예측 정확도
•기존 모델에 쉽게 추가 가능한 플러그인으로서의 범용성
•낮은 추가 연산 비용(메모리 및 학습 시간) 확인

SOTA(State-of-the-art)는 현재 특정 분야에서 가장 성능이 좋은 모델을 의미한다.

실무 Takeaway

시계열 데이터의 모든 구간이 예측에 동일하게 중요하지 않으므로, SRS 모듈을 통해 유의미한 패치만 선택적으로 학습하면 노이즈 영향을 최소화할 수 있다.
Argmax와 같은 불연속적인 연산도 Gradient Gate 기법을 적용하면 역전파를 통해 모델이 어떤 패치를 선택해야 할지 직접 학습하게 만들 수 있다.
복잡한 Transformer 구조를 쌓는 것보다 입력 데이터의 표현 공간(Representation Space)을 최적화하는 것이 모델 성능 향상에 더 본질적인 기여를 할 수 있다.

언급된 리소스

논문Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective

논문PatchTST (A Time Series is Worth 64 Words)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 11.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

선택적 표현 공간을 통한 시계열 예측 강화: 패치 관점의 접근 (NeurIPS 2025) | AI Trends