Sessa: 선택적 상태 공간 어텐션

긴 문맥을 처리할 때 Transformer는 정보가 희석되고 SSM은 과거 정보를 잊어버리는 한계가 있습니다. Sessa는 Attention Mechanism을 재귀적 피드백 경로 내부에 배치하여 정보 보존과 선택적 검색 능력을 획기적으로 개선했으며, 이는 초장대 시퀀스 모델링의 새로운 아키텍처 방향을 제시합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Sessa 시퀀스 믹서 아키텍처 제안

입력 의존적인 Attention Mechanism을 재귀적 피드백 경로에 통합하여 단일 계층 내에서 다양한 정보 전달 경로를 생성하는 새로운 디코더 구조를 제안했다.

멱법칙 메모리 감쇠 이론적 증명

Sessa가 기존 Transformer나 Mamba보다 느리게 감쇠하는 멱법칙(Power-law) 메모리 꼬리를 가짐을 수학적으로 증명하여 장기 기억 유지의 우월성을 입증했다.

유연한 선택적 검색 실현

거리에 따라 영향력이 줄어들지 않는 프로필을 포함하여, 기존 모델들이 구현하지 못했던 유연한 선택적 정보 검색 기능을 이론 및 실험적으로 구현했다.

롱 컨텍스트 벤치마크 SOTA 달성

SymbolSoup 및 Diffuse MQAR과 같은 긴 문맥 작업에서 Transformer와 Mamba2를 능가하는 가장 강력한 성능을 기록했다.

핵심 아이디어 이해하기

기존 시퀀스 모델링의 두 축인 Transformer와 SSM(상태 공간 모델)은 각각 고유한 한계를 가집니다. Transformer의 Self-Attention은 모든 과거 토큰을 직접 참조하지만, 참조 대상이 많아질수록 개별 토큰의 영향력이 희석되는 Dilution 문제가 발생합니다. 반면 SSM은 고정된 크기의 상태(State)를 통해 정보를 전달하므로 시퀀스가 길어질수록 과거 정보를 기하급수적으로 잊어버리는 Exponential Forgetting 현상이 나타납니다.

Sessa는 이 두 방식의 장점을 결합하기 위해 Attention Mechanism을 재귀적인 피드백 루프 안에 배치합니다. 이는 기존 Attention이 한 번의 읽기 연산으로 끝나는 것과 달리, 과거의 정보가 피드백을 통해 현재 상태에 반복적으로 통합되도록 만듭니다. 결과적으로 정보가 단일 경로가 아닌 수많은 Attention 기반 경로를 통해 미래로 전달되도록 설계되었습니다.

이러한 구조적 변화를 통해 Sessa는 정보의 희석을 막으면서도 SSM보다 훨씬 긴 시간 동안 정보를 유지할 수 있게 됩니다. 이론적으로는 메모리 감쇠 속도가 지수 함수가 아닌 멱법칙을 따르게 되어, 아주 먼 과거의 정보도 효과적으로 현재 연산에 활용할 수 있는 능력을 갖추게 됩니다.

관련 Figure

#1Diagram
Transformer는 단일 홉(Direct-edge), Mamba는 단일 경로의 멀티 홉(Chain)을 사용하는 반면, Sessa는 수많은 Attention 기반 경로를 통해 정보를 전달함을 보여줍니다. 이 경로의 다양성이 멱법칙 메모리 감쇠를 가능하게 하는 핵심 구조임을 시각화합니다.
Transformer, Mamba, Sessa의 정보 라우팅 경로 비교 다이어그램

방법론

Sessa는 단일 게이트 MLP 스타일 블록 내부에 재귀적 믹서를 래핑한 구조를 가집니다. 핵심은 Mixer 내부에서 수행되는 두 가지 Attention 메커니즘입니다. 첫째는 표준적인 Forward Causal Attention으로 현재 신호를 생성하며, 둘째는 과거의 Mixer 출력들을 혼합하여 현재 상태로 되돌리는 Feedback Attention입니다.

피드백 연산은 (I - B_fb)s = f 형태의 하삼각 행렬 연산으로 정의됩니다. 여기서 f는 Forward Attention의 결과값이고, B_fb는 Feedback Attention 가중치와 스칼라 게이트 값의 곱으로 구성된 행렬입니다. [입력값 f와 피드백 가중치 B_fb] → [하삼각 행렬 시스템 풀이(Triangular Solve)] → [출력 s] 과정을 거치며, s는 과거 상태들이 여러 단계의 경로(Multi-hop)를 거쳐 누적된 결과물이 됩니다.

이 시스템은 입력에 따라 동적으로 변화하는 피드백 경로를 생성합니다. 특히 Feedback Attention에 별도의 Positional Encoding을 사용하지 않고도, 하삼각 행렬의 구조적 비대칭성을 이용해 내부적으로 절대적 위치 신호를 생성하고 복구할 수 있는 특성을 가집니다. 이는 모델이 시퀀스 내에서 특정 위치의 정보를 정밀하게 선택하여 유지할 수 있게 합니다.

관련 Figure

#2Diagram
LayerNorm 이후 Linear 투영을 거쳐 Mixer로 들어가고, Mixer 내부에서 시그마(σ)로 표시된 피드백 루프가 작동하는 구조를 보여줍니다. 피드백 경로가 Mixer 출력에서 다시 입력으로 연결되는 지점이 Sessa의 기술적 차별점입니다.
Sessa 계층의 내부 아키텍처 구조도

주요 결과

긴 문맥 성능을 평가하는 SymbolSoup 벤치마크에서 Sessa는 0.8601의 정확도를 기록하여 Transformer(0.7921)와 Mamba2(0.0500)를 크게 앞섰습니다. 특히 Mamba2는 해당 작업에서 수렴에 실패하며 선택적 SSM의 한계를 보여주었습니다.

Diffuse MQAR(Multi-Query Associative Recall) 테스트에서도 Sessa는 0.1541의 토큰 정확도를 달성하여 Transformer(0.1222)보다 우수한 성능을 보였습니다. 이는 훈련 시보다 4배 더 긴 문맥이 주어지는 환경에서도 Sessa의 장기 기억 유지 능력이 유효함을 입증한 결과입니다.

단기 문맥 언어 모델링 성능을 측정하는 SimpleStories에서는 Transformer(Perplexity 7.67)와 Mamba2(7.72)가 Sessa(8.37)보다 약간 우세했습니다. 연구진은 Sessa의 용량 일부가 피드백 메커니즘에 할당되어 단기 작업에서는 효율이 낮아질 수 있음을 확인했으며, 피드백 제거 실험을 통해 이를 검증했습니다.

기술 상세

Sessa 아키텍처는 (I - B_fb)s = f라는 선형 시스템의 해를 구하는 과정을 통해 Multi-hop 라우팅을 구현합니다. B_fb는 엄격한 하삼각 행렬(Strictly Lower-triangular)이므로 멱영(Nilpotent) 특성을 가지며, 이는 (I - B_fb)^-1 = Σ B_fb^k 형태의 급수로 전개됩니다. 이 급수의 각 항은 k번의 피드백 단계를 거친 경로를 의미하며, Sessa는 이를 통해 단일 계층 내에서 기하급수적으로 많은 정보 전달 경로를 확보합니다.

이론적 분석에 따르면, Feedback Attention이 확산된(Diffuse) 상황에서도 Sessa는 O(ℓ^-β) 형태의 멱법칙 감쇠를 보입니다. 이는 SSM의 지수적 감쇠(Exponential Decay)나 Transformer의 단순 희석(1/ℓ)보다 점진적인 감쇠를 의미하며, 층이 깊어질수록 더 유연한 검색 프로필을 형성할 수 있음을 수학적으로 증명했습니다.

또한 Sessa는 범용 근사 이론(Universal Approximation)을 만족합니다. 적절한 어댑터와 함께 사용될 경우, 임의의 연속적인 인과적 매핑(Causal Mapping)을 원하는 정밀도로 근사할 수 있음을 증명하여 아키텍처의 표현력을 이론적으로 뒷받침했습니다.

실무 활용

Sessa는 매우 긴 문서를 분석하거나 수만 개 이상의 토큰을 다루는 RAG 시스템, 긴 유전체 서열 분석 등 장기 의존성이 중요한 분야에 즉시 적용 가능합니다.

수십만 단어 분량의 법률/기술 문서에서 특정 정보를 정확히 추출하는 롱 컨텍스트 분석 도구
과거의 대화 맥락을 지수적 망각 없이 유지해야 하는 초장기 기억 에이전트
희석 효과 없이 수많은 참조 데이터를 동시에 고려해야 하는 복합 정보 검색 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

Sessa(세사)Attention Mechanism(어텐션 메커니즘)SSM(상태 공간 모델)Long-context(긴 문맥)Power-law Decay(멱법칙 감쇠)Selective Retrieval(선택적 검색)

Sessa: 선택적 상태 공간 어텐션

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Sessa 시퀀스 믹서 아키텍처 제안

멱법칙 메모리 감쇠 이론적 증명

Sessa가 기존 Transformer나 Mamba보다 느리게 감쇠하는 멱법칙(Power-law) 메모리 꼬리를 가짐을 수학적으로 증명하여 장기 기억 유지의 우월성을 입증했다.

유연한 선택적 검색 실현

롱 컨텍스트 벤치마크 SOTA 달성

SymbolSoup 및 Diffuse MQAR과 같은 긴 문맥 작업에서 Transformer와 Mamba2를 능가하는 가장 강력한 성능을 기록했다.

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

기술 상세

실무 활용

수십만 단어 분량의 법률/기술 문서에서 특정 정보를 정확히 추출하는 롱 컨텍스트 분석 도구
과거의 대화 맥락을 지수적 망각 없이 유지해야 하는 초장기 기억 에이전트
희석 효과 없이 수많은 참조 데이터를 동시에 고려해야 하는 복합 정보 검색 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

Sessa(세사)Attention Mechanism(어텐션 메커니즘)SSM(상태 공간 모델)Long-context(긴 문맥)Power-law Decay(멱법칙 감쇠)Selective Retrieval(선택적 검색)

Sessa: 선택적 상태 공간 어텐션

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

Sessa: 선택적 상태 공간 어텐션

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드