TL;DR
Transformer 기반 언어 모델의 긴 시퀀스 처리 한계를 다층 기억 체계로 해소한다. Transformation Hypothesis와 cross-frequency coupling에서 영감을 얻은 Hierarchical Memory Module(HMM)과 Hierarchical Latent Recursion(HLR)를 통해, 저주기 메모리(L-module)와 고주기 메모리(H-module)가 상호작용하며 컨솔리데이션을 수행한다. MemStack은 중간 컨솔리데이션 상태를 디코더의 초반 층에 주입해 긴 컨텍스트에서도 안정적인 예측을 가능하게 한다.
왜 중요한가
Transformer 기반 언어 모델의 긴 시퀀스 처리 한계를 다층 기억 체계로 해소한다. Transformation Hypothesis와 cross-frequency coupling에서 영감을 얻은 Hierarchical Memory Module(HMM)과 Hierarchical Latent Recursion(HLR)를 통해, 저주기 메모리(L-module)와 고주기 메모리(H-module)가 상호작용하며 컨솔리데이션을 수행한다. MemStack은 중간 컨솔리데이션 상태를 디코더의 초반 층에 주입해 긴 컨텍스트에서도 안정적인 예측을 가능하게 한다.
핵심 기여
Hierarchical Memory Module(HMM) 구성
L-module과 H-module로 구성된 이중 메모리 아키텍처를 도입하고, 서로 다른 업데이트 주기를 통해 episodic과 semantic 메모리 표현을 생성한다. L-module은 richer episodic 디테일을, H-module은 gist 수준의 추상화를 보존한다.
Hierarchical Latent Recursion(HLR) 알고리즘
L-cycle 다수와 H-cycle의 재귀적 갱신으로 l_state와 h_state를 교차 보정한다. 1-step gradient 근사를 피하고 다중 순환에서 그래디언트를 필요한 마지막 사이클에만 흐르게 한다.
MemStack를 통한 다층 컨솔리데이션 정보 전달
중간 컨솔리데이션 상태 z(i)를 각 디코더 레이어의 초기 입력으로 주입하지 않고, decoder의 상위 H−1 레이어에 순차적으로 쌓아 전달한다. 이를 통해 모든 사이클의 memory 정보를 활용한다.
Mela 아키텍처와 테스트 시 메모리 컨솔리데이션
HMM을 Transformer 기반 디코더에 연결해 테스트 시 메모리 컨솔리데이션을 수행하는 모델 패밀리(Mela)로 구현한다. 3가지 규모에서 Transformer++ 대비 우수한 성능을 보이고, 고정된 4K 프리트레인 컨텍스트에서도 더 긴 컨텍스트를 잘 다룬다.
다양한 구성 요소의 Ablation 결과
H-cycle, L-cycle, 모듈 깊이, 게이팅, MemStack 등의 요소가 성능에 미치는 영향을 실험적으로 확인한다. 특히 H-module의 깊이 증가가 긴 컨텍스트에서 큰 이점을 가져오고, L-module의 깊이는 짧은 컨텍스트에서 더 큰 영향을 준다.
핵심 아이디어 이해하기
단계 1: Transformer의 Self-attention은 시퀀스 내 모든 토큰 쌍의 관계를 계산하므로 길이가 늘어나면 연산량이 증가한다. 단계 2: transformation hypothesis에 따라 메모리는 고정된 기록이 아니라 상황에 맞게 변화하는 표현으로 재구성되며, 서로 다른 시간 규모의 시스템이 협력해야 한다. 단계 3: HMM은 L-module(고해상도, episodic)과 H-module(저주기, semantic)을 결합해 두 차원의 정보를 저장하고, HLR을 통해 이 두 표현을 점진적으로 변환한다. 단계 4: MemStack은 컨솔리데이션 경로의 중간 상태를 decoder의 초기화 정보로 다층에 걸쳐 전달해 긴 컨텍스트에서도 지속적으로 기억 정보를 활용한다.
방법론
두 모듈의 업데이트 주기를 다르게 설계하고, Hierarchical Latent Recursion(HLR)으로 l_state와 h_state를 교차 보정한다. 입력 토큰은 패치 단위로 xp로 변환되어 L-module과 H-module에 전달되며, 각 모듈은 내부 메모리 모듈과 게이팅된 어텐션으로 구성된다. 메모리 업데이트는 Mt = αMt−1 + St, St = ηtSt−1 − θt∇ℓ(Mt−1, xt)와 같은 형태의 업데이트 규칙으로 수행되며, ℓ은 associative 손실을 사용한다. 상호작용은 L_cycle과 H_cycle의 재귀를 통해 수행되며, 마지막에 H_state와 L_state를 Fusion MLP로 결합하여 출력으로 보낸다.
관련 Figure

L-module과 H-module의 계층적 재귀가 memory 생성에 어떻게 작용하는지 한눈에 보여준다. MemStack의 위치와 Fusion의 흐름도 확인 가능하다.
Figure 1: HMM 아키텍처 개요. Patch 및 L-/H-module의 상호작용을 시각화한다.

HLR의 두 단계 재귀 구조와 gradient 흐름 제어를 코드 차원에서 설명한다. 입력 및 출력 간의 관계를 파악하는 데 유용하다.
Figure 2: HLR의 PyTorch 구현 의사코드

Mela의 전체 흐름과 memory 모듈 내부의 구성 요소(게이팅 어텐션, Neural Memory Module)의 위치를 보여준다.
Figure 3(a): Mela의 모델 아키텍처; (b): memory 모듈의 구성

패치 기반 입력의 기억 토큰 배치와 디코더의 상호작용 방식, cross-chunk 정보의 경로를 시각화한다.
Figure 3(b): 어텐션 마스크와 patching의 예시

각 cycle의 l_state, h_state가 Fusion을 거친 후 decoder에 공급되는 흐름을 보여준다. MemStack의 개념이 구체화된다.
Figure 4: 각 cycle의 memory representation을 Fusion MLP로 결합하는 구조
주요 결과
주요 벤치마크에서 Mela는 400M/800M/1.2B 파라미터 규모에서 Transformer++ 대비 개선된 Perplexity를 달성한다. 1024 토큰 컨텍스트에서 Mela 400M은 12.53, Transformer++ 400M은 13.59이다. 32768 컨텍스트에서 Mela 1.2B은 11.85, Transformer++ 1.2B은 597.37이다. 같은 4K 프리트레인 컨텍스트에서 Mela 계열은 12.01~9.08 수준의 PPL로 하락하며, 긴 컨텍스트에서도 성능 저하가 더 느리게 나타난다. Ablation 결과, H-cycle을 늘리면 긴 컨텍스트에서 이득이 커지고, L-cycle은 짧은 컨텍스트에서 큰 이득을 준다. 게이트를 제거하면 성능이 크게 떨어지며, ML P(MLP) 조합으로의 출력 결합이 가장 효과적이다. Newton-Schulz 정규화의 도입과 MemStack의 사용은 각각 PPL 개선에 기여한다.
관련 Figure

Mela와 Transformer++ 간의 perplexity를 컨텍스트 길이(1024~32768)로 비교한다. 컨텍스트가 길수록 Mela의 이점이 크게 나타남.
Figure 5: Mela의 perplexity 대 컨텍스트 길이 그래프

L=4가 모든 컨텍스트에서 최저 퍼플렉시티를 기록하나, 컨텍스트 길이가 증가할수록 L의 효과가 감소하는 경향을 보인다.
Figure 6: L-cycle의 수에 따른 퍼플렉시티 변화

H-module 깊이가 길어질수록 길이 컨텍스트에서의 성능 이득이 커진다.
Figure 7: H-module 깊이가 퍼플렉시티에 미치는 영향
기술 상세
아키텍처 개요: Mela의 HMM은 L-module(episodic memory)와 H-module(semantic memory)로 구성되며, xp 패치를 통해 입력을 패치 단위로 처리한다. 각 메모리 모듈은 memory block으로 이루어지고, Nc = Np/C로 정의된(chunk 수) 단위로 Chunk 내에서 어텐션과 메모리 모듈을 적용한다. Retrieval은 qt = Wq xt로 계산된 쿼리를 이용해 yt = N(qt; Mt−1)로 얻는다. 학습 목표로는 associative 손실을 사용하고, Mt 업데이트 규칙은 Moll−1의 gradient를 이용한 St를 통해 이루어진다. Hierarchical Latent Recursion(HLR)은 두 단계의 재귀로 구성되며, H_cycles와 L_cycles의 비율에 따라 L-module의 업데이트 빈도가 달라진다. with torch.no_grad() 구문을 사용하여 HLR의 상위 사이클은 gradient 없이 실행한 뒤, 마지막에 gradients를 적용한다. MemStack은 z(i) = Fusion(l(i), h(i))를 통해 각 cycle의 memory representation을 생성하고, α=1...L의 decoder layer에서 이 중간 memory representations를 주입한다. 최종 y(L)은 y(L−1)와 z(H) 및 z(i)를 순서대로 결합해 계산된다. 최적화는 Muon 옵티마이저를 사용하고 NewtonSchulz−k(St)로 St를 직교화한다. k=5로 설정하여 수렴 속도와 안정성을 확보한다. Patch 크기 P와 Chunk 크기 C, Memory blocks의 수는 모델 규모에 따라 조정되며, H-module은 더 많은 memory blocks를 가지도록 설계된다. MemStack은 중간 cycle의 memory representations를 디코더 초기층에 주입하므로 추가 토큰 없이도 memory 정보를 활용한다.
실무 활용
긴 컨텍스트를 필요로 하는 실용적 LLM 응용에서 테스트 시 메모리 컨솔리데이션으로 컨텍스트 확장을 구현할 수 있다. HMM+HLR+MemStack 구조는 모듈식 확장과 독립적 학습이 가능하도록 설계됐다.
- 긴 대화 컨텍스트를 필요로 하는 대화형 에이전트의 장기 의도 추적
- 문서 요약에서의 긴 문맥 의존성 유지
- 코드 탐색 및 대규모 소스 코드 분석에서의 컨텍스트 확장
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.