핵심 요약
Mamba나 Linear Attention과 같은 최신 순환 모델들이 이론적인 표현력에도 불구하고 왜 긴 시퀀스에서 상태 추적에 실패하는지 분석했다. 오차 제어 역학이라는 새로운 관점을 통해 모델의 구조적 한계가 장기적인 정확도 저하로 이어지는 과정을 수학적으로 증명했다.
왜 중요한가
Mamba나 Linear Attention과 같은 최신 순환 모델들이 이론적인 표현력에도 불구하고 왜 긴 시퀀스에서 상태 추적에 실패하는지 분석했다. 오차 제어 역학이라는 새로운 관점을 통해 모델의 구조적 한계가 장기적인 정확도 저하로 이어지는 과정을 수학적으로 증명했다.
핵심 기여
Affine 순환 모델의 오차 수정 불가능성 증명
SSM과 Linear Attention을 포함하는 Affine 순환 네트워크가 상태를 구분하는 서브스페이스 내에서 발생하는 오차를 스스로 수정할 수 없음을 수학적으로 증명했다.
상태 판별 가능성 지표 q(t) 제안
클래스 내 분산과 클래스 간 거리의 비율을 나타내는 q(t)를 통해 모델이 언제 상태 추적에 실패할지 예측할 수 있는 정량적 지표를 제시했다.
상태 의존적 역학의 필수성 확인
tanh RNN이나 Gated RNN과 같이 상태에 의존하는 비선형 역학만이 누적되는 오차를 수축시켜 장기적인 상태 추적을 가능하게 함을 실험적으로 입증했다.
핵심 아이디어 이해하기
순환 모델이 이전 정보를 유지하는 방식은 크게 Affine 방식과 상태 의존적 방식으로 나뉜다. Mamba와 같은 Affine 모델은 현재 상태와 상관없이 입력에 의해서만 전이 행렬이 결정되는 특성을 가진다. 이는 모델이 특정 상태를 정확히 유지하도록 학습되었을 때, 그 상태 주변에서 발생하는 미세한 오차(Drift)를 다시 원래 상태로 되돌리는 '수축력'을 가질 수 없게 만든다.
이러한 현상은 딥러닝의 Embedding 공간에서 상태들이 서로 멀리 떨어져 있더라도, 시간이 흐름에 따라 오차가 누적되면서 각 상태를 나타내는 점들이 서로 겹치게 되는 결과를 초래한다. 결국 디코더가 각 점이 어떤 상태에 해당하는지 구분할 수 없는 임계점을 넘어서게 되며, 이는 모델의 추론 성능 급락으로 이어진다.
반면 상태 의존적 모델은 현재의 Hidden State 값에 따라 오차를 줄이는 방향으로 역학을 조정할 수 있다. 이는 마치 자석이 철가루를 특정 지점으로 끌어당기듯, 오차가 발생해도 다시 정답 상태로 복구시키는 제어 능력을 제공하여 매우 긴 시퀀스에서도 안정적인 추적을 가능하게 한다.
방법론
본 연구는 순환 레이어를 ht = ϕ(g(ht-1, xt) ⊙ (A(xt)ht-1) + b(xt))라는 일반화된 수식으로 정의하고 분석한다. 여기서 g(ht-1, xt)가 1이고 ϕ가 항등 함수인 경우를 Affine 모델로 분류한다.
오차 누적 분석을 위해 상태 구분 서브스페이스 U를 정의했다. [서로 다른 두 상태의 표현 벡터 차이들을 입력으로] → [이들의 선형 결합(span) 연산을 수행해] → [U라는 공간을 얻고] → [이 공간이 모델이 상태를 식별하는 핵심 방향임을 정의했다]. Affine 모델의 경우 이 공간 위에서의 Jacobian이 단위 행렬(I)이 됨을 보여 오차 수정이 불가능함을 수학적으로 도출했다.
실험을 위해 군(Group) 상태 추적 태스크인 C2, C6, S3를 사용했다. [입력 토큰 시퀀스를 모델에 입력으로] → [각 단계마다 누적된 연산 결과(Running Product)를 예측하는 연산을 수행해] → [최종 예측 정확도를 얻고] → [모델의 장기 기억 능력을 평가했다].
관련 Figure

Affine 모델(Mamba 등)은 주입된 오차를 줄이지 못하고 유지하거나 오히려 증폭시키는 반면, 비선형 모델(tanh RNN 등)은 오차를 급격히 수축시켜 원래 궤적으로 복귀시킨다. 이는 Affine 모델이 상태 구분 방향에서 오차 수정 능력이 없음을 시각적으로 증명한다.
S3 태스크에서 노이즈 주입 후 각 모델의 오차 회복 궤적을 보여주는 PCA 시각화 및 오차율 그래프.
주요 결과
실험 결과, tanh RNN과 State-gated RNN은 테스트한 모든 길이(최대 1000 토큰)에서 90% 이상의 정확도를 유지하며 완벽한 상태 추적 성능을 보였다. 반면 Mamba, Mamba-3, AUSSM 등 Affine 계열 모델들은 학습 길이(60 토큰)를 넘어서는 시점에서 성능이 급격히 하락하는 현상이 관찰됐다.
특히 S3 태스크에서 Affine 모델들의 판별 가능성 지표 q(t)가 임계값인 0.5를 넘어서는 시점(Tcross)과 실제 모델의 예측이 틀리기 시작하는 시점(mp) 사이의 상관관계가 0.87로 매우 높게 나타났다. 이는 모델의 실패가 표현력 부족이 아니라 누적된 오차 제어 실패 때문임을 뒷받침한다.
관련 Figure

Affine 모델들은 시간이 지남에 따라 q(t)가 임계값 0.5를 돌파하며 상태 구분이 불가능해지는 과정을 보여준다. 특히 Mamba 계열은 초기부터 높은 분산을 보이며 빠르게 포화되는 반면, 비선형 모델들은 낮은 q(t)를 안정적으로 유지한다.
S3 태스크 진행에 따른 각 모델의 판별 가능성 지표 q(t)와 클래스 내 분산 R(t)의 변화 그래프.

로그 스케일에서 두 지표 사이의 상관계수가 0.87로 매우 높게 나타나며, 이는 모델의 읽기 능력 붕괴가 실제 성능 저하를 결정하는 핵심 요인임을 정량적으로 입증한다.
판별 가능성 임계점 도달 시간(Tcross)과 실제 모델의 최대 성능 유지 길이(mp) 사이의 상관관계 그래프.
기술 상세
Affine 순환 모델은 Jacobian ∂ht/∂ht-1이 ht-1에 의존하지 않는 구조적 특징을 갖는다. Theorem 1에 따르면, 이러한 모델이 상태 표현을 정확히 보존(Exact preservation)하도록 학습되면, 상태 구분 서브스페이스 U에서의 연산은 반드시 identity action이 되어야 하므로 오차를 수축시킬 자유도가 사라진다.
반면 비선형 활성화 함수나 상태 의존적 게이팅을 사용하는 모델은 Jacobian이 상태에 따라 변할 수 있다. 예를 들어 tanh 활성화 함수는 ∂ϕ/∂p = diag(1 - tanh²(p))를 통해 특정 상태 근처에서 Jacobian의 노름을 1 미만으로 만들어 오차를 선택적으로 수축시킬 수 있다. LayerNorm이나 Sphere Projection과 같은 벡터 정규화 기법은 비선형적이지만 Jacobian이 등방성(Isotropic)을 띠어 특정 방향의 오차를 제어하지 못하므로 Affine 모델과 유사한 실패 패턴을 보임을 확인했다.
한계점
본 연구는 유한 군(Finite group) 상태 추적 태스크에 한정되어 실험이 진행되었다. 실제 자연어 처리와 같이 훨씬 더 복잡하고 연속적인 상태 공간을 가진 태스크에서 오차 제어 역학이 어떻게 작용하는지에 대해서는 추가적인 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.