TL;DR
대형 언어 모델은 장기 맥락과 과거 정보를 필요로 하는 기억 중심 작업에서 컨텍스트 확장만으로는 비용과 효율 문제를 해결하기 어렵다. δ-mem은 작은 온라인 상태(8×8)로 과거 정보를 압축해 어텐션 계산에 저차원 보조 신호를 제공하고, backbone을 동결한 채 기억 정보를 활용한다. MemoryAgentBench에서 1.31×, LoCoMo에서 1.20×, TTL 서브태스크에서 거의 두 배(26.14→50.50)에 해당하는 향상을 보인다. 이로써 explicit 컨텍스트 확장 없이도 테스트 시memory 활용이 가능해진다.
왜 중요한가
대형 언어 모델은 장기 맥락과 과거 정보를 필요로 하는 기억 중심 작업에서 컨텍스트 확장만으로는 비용과 효율 문제를 해결하기 어렵다. δ-mem은 작은 온라인 상태(8×8)로 과거 정보를 압축해 어텐션 계산에 저차원 보조 신호를 제공하고, backbone을 동결한 채 기억 정보를 활용한다. MemoryAgentBench에서 1.31×, LoCoMo에서 1.20×, TTL 서브태스크에서 거의 두 배(26.14→50.50)에 해당하는 향상을 보인다. 이로써 explicit 컨텍스트 확장 없이도 테스트 시memory 활용이 가능해진다.
핵심 기여
δ-mem의 도입: frozen full-attention backbone에 compact online state를 부가하는 메모리 메커니즘
이 기여는 과거 정보를 OSAM으로 축약해 뒀다 읽기 및 쓰기 연산을 통해 어텐션 계산에 직접 관여하도록 하는 새로운 메모리 설계이다.
8×8 온라인 메모리 상태의 충분성
온라인 상태를 8×8 매트릭스 형태로 구현해도 OSAM을 통해 유의미한 역사신호를 보존하고 explicit 히스토리가 제거된 상황에서도 context-relevant 정보를 회복한다.
저랭크 보정으로 어텐션 steered
읽기 신호 rt를 기반으로 query-side 보정∆qt와 output-side 보정∆ot를 생성하고, 이를 어텐션의 질의 및 출력에 저랭크로 더해 백본의 어텐션 계산을 조정한다.
delta-rule 업데이트와 게이트로 기억 업데이트 제어
St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)⊤ 형태의 업데이트를 사용하고, βt와 λt를 이용해 잊힘과 축적의 강도를 차원별로 제어한다.
쓰기 그레anularity 및 삽입 깊이(Insertion Depth) 분석
TSW/SSW/MSW 세 가지 쓰기 전략과 Middle-layer 삽입이 최적 성능을 보이는 경향을 보이며, All-layers 삽입이 최다 성능을 달성한다.
핵심 아이디어 이해하기
출발점: Transformer의 Self-Attention은 입력 시퀀스의 모든 토큰 쌍 간 관계를 계산한다. 이때 시퀀스 길이가 길어질수록 연산량이 증가하고 컨텍스트 확장만으로는 비용이 커진다. δ-mem은 과거 정보를 compact한 online state로 축약해 두고, 토큰 단위가 아니라 쿼리 시점에서 이 온라인 상태를 읽어 어텐션에 저랭크 보정으로 연결한다. 이렇게 하면 backbone의 가중치를 고정한 채로 기억 정보를 활용할 수 있다. 구현적으로 q^m_t, k^m_t, v^m_t를 통해 OSAM에 쓰는 정보를 생성하고, rt = S_{t−1} q^m_t로 읽어들여 q̃t, Ãt에 보정을 가한다. 기억의 저장은 St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)^⊤로 이뤄지며, βt와 λt를 통해 잊힘과 보존의 균형을 차원별로 조정한다. 쓰기 granularity로 token-state-write(TSW), sequence-state-write(SSW), multi-state-write(MSW)를 제시하며, 학습은 LSFT( autoregressive cross-entropy )를 사용한다. 이로써 8×8의 작은 온라인 메모리 상태로도 explicit 컨텍스트 제거 상황에서 부분적으로 과거를 회복하고 메모리-Heavy 벤치마크에서 성능 향상을 달성한다.
방법론
- 입력 xt를 받아 low-dimensional memory 공간으로 projection한다: q^m_t = L2norm(tanh(W^m_q xt)), k^m_t = L2norm(tanh(W^m_k xt)), v^m_t = W^m_v xt. βt와 λt는 각각 σ(Wβ xt + b), 1−βt로 정의한다. 2) 읽기 단계에서 rt = St−1 q^m_t를 얻어 기억 신호를 얻는다. 3) q̃t = WQ xt + αr ∆qt, ∆qt = W∆q rt, ∆ot = W∆o rt, ỹt = Attn(q̃t, K, V) + αr ∆ot. 4) 쓰기 단계에서 St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)^⊤. 5) 쓰기 granularity: TSW는 token 단위, SSW는 메시지 단위 평균, MSW는 다중 하위 상태로 분할하여 저장. 6) 학습 목적 LSFT: context 토큰을 SC에 기록하고, 예측 대상 Y에 대해 autoregressive cross-entropy를 최소화한다. Q와 Y는 고정된 frozen backbone으로 처리되며 SC를 통해 memory가 attention에 가이드 역할을 한다.
주요 결과
메인 벤치마크에서 δ-mem은 모든 baselines 대비 강력한 성능을 보인다. δ-mem (TSW)은 평균 51.66%로 최상위이며, 백본 Qwen3-4B-Instruct의 평균 46.79%에서 +4.87 포인트 상승하고 Context2LoRA의 44.90% 대비 +6.76 포인트 상승한다. δ-mem (SSW)은 51.44%, δ-mem (MSW)은 50.74%를 달성했다. MemoryAgentBench에서 평균이 1.31× 증가, LoCoMo에서 1.20× 증가하며 TTL 서브태스크는 26.14에서 50.50으로 거의 두 배에 이르는 개선을 보였다. 백본별로는 Qwen3-4B-Instruct의 평균이 46.79%에서 51.66%로 상승, Qwen3-8B의 평균이 47.20%에서 50.86%로 상승, SmolLM3-3B의 평균이 26.08%에서 36.96%로 상승했다. 삽입 깊이 분석에서 All Layers가 47.97%의 평균으로 가장 우수했고, Middle Layer가 46.66%로 다음으로 좋았다. Front Layer과 Back Layer 구성이 각각 44–44.5%대에 머물렀다.
기술 상세
아키텍처: δ-mem은 frozen full-attention backbone 위에 compact online state(OSAM)를 유지한다. xt에서 저차원 공간으로 q^m_t, k^m_t, v^m_t를 얻고(rt = St−1 q^m_t) 이를 이용해 q̃t, ∆qt, ∆ot를 생성해 어텐션에 반영한다. q̃t는 W_Q xt에 ∆qt를 더해 구성되고, Attn(q̃t, K, V) 뒤에 ∆ot를 더해 최종 출력을 얻는다. 메모리는 St을 St−1에 대해 Diag(lambda_t)와 Diag(beta_t)로 업데이트하며, (v^m_t − St−1 k^m_t)(k^m_t)^⊤의 잔차 정보를 해당 방향으로 기록한다. 업데이트는 차원별 게이트 λt, βt를 통해 잊힘과 write의 강도를 조절한다. 쓰기 granularity로 Token-State Write(TSW), Sequence-State Write(SSW), Multi-State Write(MSW) 중 선택하며, MSW는 다중 하위 상태를 병렬로 운영해 상호 간섭을 감소시킨다. 학습은 LSFT 손실을 사용하며, 컨텍스트 토큰은 SC에 기록되고 prediction은 Q, Y로 구성된 고정 백본에서 수행된다. 삽입 깊이는 Front/Middle/Back 중 Middle가 가장 안정적으로 성능을 높이며 All Layers에서 최상으로 나타난다.
실무 활용
δ-mem은 frozen backbone에 작은 온라인 메모리 상태를 추가해 기억 정보를 지속적으로 축적하고 어텐션 계산에 직접 관여하도록 한다. 이를 통해 컨텍스트 확장을 늘리지 않고도 기억 기반의 추론을 강화한다.
- 장기 대화 맥락을 필요로 하는 AI 어시스턴트
- 메모리-heavy QA 및 대화형 에이전트에서 과거 정보를 지속적으로 활용
- 다단계 추론이 필요한 시나리오에서 과거 이벤트를 재참조하는 시나리오
- 메모리-중첩 multi-turn 대화에서 컨텍스트 성능 저하를 완화
- 시스템 프롬프트 재생성 비용을 줄이는 메모리 기반 보정
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.