δ-mem: 대형 언어 모델을 위한 효율적인 온라인 메모리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델은 장기 맥락과 과거 정보를 필요로 하는 기억 중심 작업에서 컨텍스트 확장만으로는 비용과 효율 문제를 해결하기 어렵다. δ-mem은 작은 온라인 상태(8×8)로 과거 정보를 압축해 어텐션 계산에 저차원 보조 신호를 제공하고, backbone을 동결한 채 기억 정보를 활용한다. MemoryAgentBench에서 1.31×, LoCoMo에서 1.20×, TTL 서브태스크에서 거의 두 배(26.14→50.50)에 해당하는 향상을 보인다. 이로써 explicit 컨텍스트 확장 없이도 테스트 시memory 활용이 가능해진다.

왜 중요한가

핵심 기여

δ-mem의 도입: frozen full-attention backbone에 compact online state를 부가하는 메모리 메커니즘

이 기여는 과거 정보를 OSAM으로 축약해 뒀다 읽기 및 쓰기 연산을 통해 어텐션 계산에 직접 관여하도록 하는 새로운 메모리 설계이다.

8×8 온라인 메모리 상태의 충분성

온라인 상태를 8×8 매트릭스 형태로 구현해도 OSAM을 통해 유의미한 역사신호를 보존하고 explicit 히스토리가 제거된 상황에서도 context-relevant 정보를 회복한다.

저랭크 보정으로 어텐션 steered

읽기 신호 rt를 기반으로 query-side 보정∆qt와 output-side 보정∆ot를 생성하고, 이를 어텐션의 질의 및 출력에 저랭크로 더해 백본의 어텐션 계산을 조정한다.

delta-rule 업데이트와 게이트로 기억 업데이트 제어

St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)⊤ 형태의 업데이트를 사용하고, βt와 λt를 이용해 잊힘과 축적의 강도를 차원별로 제어한다.

쓰기 그레anularity 및 삽입 깊이(Insertion Depth) 분석

TSW/SSW/MSW 세 가지 쓰기 전략과 Middle-layer 삽입이 최적 성능을 보이는 경향을 보이며, All-layers 삽입이 최다 성능을 달성한다.

핵심 아이디어 이해하기

출발점: Transformer의 Self-Attention은 입력 시퀀스의 모든 토큰 쌍 간 관계를 계산한다. 이때 시퀀스 길이가 길어질수록 연산량이 증가하고 컨텍스트 확장만으로는 비용이 커진다. δ-mem은 과거 정보를 compact한 online state로 축약해 두고, 토큰 단위가 아니라 쿼리 시점에서 이 온라인 상태를 읽어 어텐션에 저랭크 보정으로 연결한다. 이렇게 하면 backbone의 가중치를 고정한 채로 기억 정보를 활용할 수 있다. 구현적으로 q^m_t, k^m_t, v^m_t를 통해 OSAM에 쓰는 정보를 생성하고, rt = S_{t−1} q^m_t로 읽어들여 q̃t, Ãt에 보정을 가한다. 기억의 저장은 St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)^⊤로 이뤄지며, βt와 λt를 통해 잊힘과 보존의 균형을 차원별로 조정한다. 쓰기 granularity로 token-state-write(TSW), sequence-state-write(SSW), multi-state-write(MSW)를 제시하며, 학습은 LSFT( autoregressive cross-entropy )를 사용한다. 이로써 8×8의 작은 온라인 메모리 상태로도 explicit 컨텍스트 제거 상황에서 부분적으로 과거를 회복하고 메모리-Heavy 벤치마크에서 성능 향상을 달성한다.

방법론

입력 xt를 받아 low-dimensional memory 공간으로 projection한다: q^m_t = L2norm(tanh(W^m_q xt)), k^m_t = L2norm(tanh(W^m_k xt)), v^m_t = W^m_v xt. βt와 λt는 각각 σ(Wβ xt + b), 1−βt로 정의한다. 2) 읽기 단계에서 rt = St−1 q^m_t를 얻어 기억 신호를 얻는다. 3) q̃t = WQ xt + αr ∆qt, ∆qt = W∆q rt, ∆ot = W∆o rt, ỹt = Attn(q̃t, K, V) + αr ∆ot. 4) 쓰기 단계에서 St = Diag(λt)St−1 + Diag(βt)(vm t − St−1km t)(km t)^⊤. 5) 쓰기 granularity: TSW는 token 단위, SSW는 메시지 단위 평균, MSW는 다중 하위 상태로 분할하여 저장. 6) 학습 목적 LSFT: context 토큰을 SC에 기록하고, 예측 대상 Y에 대해 autoregressive cross-entropy를 최소화한다. Q와 Y는 고정된 frozen backbone으로 처리되며 SC를 통해 memory가 attention에 가이드 역할을 한다.

주요 결과

메인 벤치마크에서 δ-mem은 모든 baselines 대비 강력한 성능을 보인다. δ-mem (TSW)은 평균 51.66%로 최상위이며, 백본 Qwen3-4B-Instruct의 평균 46.79%에서 +4.87 포인트 상승하고 Context2LoRA의 44.90% 대비 +6.76 포인트 상승한다. δ-mem (SSW)은 51.44%, δ-mem (MSW)은 50.74%를 달성했다. MemoryAgentBench에서 평균이 1.31× 증가, LoCoMo에서 1.20× 증가하며 TTL 서브태스크는 26.14에서 50.50으로 거의 두 배에 이르는 개선을 보였다. 백본별로는 Qwen3-4B-Instruct의 평균이 46.79%에서 51.66%로 상승, Qwen3-8B의 평균이 47.20%에서 50.86%로 상승, SmolLM3-3B의 평균이 26.08%에서 36.96%로 상승했다. 삽입 깊이 분석에서 All Layers가 47.97%의 평균으로 가장 우수했고, Middle Layer가 46.66%로 다음으로 좋았다. Front Layer과 Back Layer 구성이 각각 44–44.5%대에 머물렀다.

기술 상세

아키텍처: δ-mem은 frozen full-attention backbone 위에 compact online state(OSAM)를 유지한다. xt에서 저차원 공간으로 q^m_t, k^m_t, v^m_t를 얻고(rt = St−1 q^m_t) 이를 이용해 q̃t, ∆qt, ∆ot를 생성해 어텐션에 반영한다. q̃t는 W_Q xt에 ∆qt를 더해 구성되고, Attn(q̃t, K, V) 뒤에 ∆ot를 더해 최종 출력을 얻는다. 메모리는 St을 St−1에 대해 Diag(lambda_t)와 Diag(beta_t)로 업데이트하며, (v^m_t − St−1 k^m_t)(k^m_t)^⊤의 잔차 정보를 해당 방향으로 기록한다. 업데이트는 차원별 게이트 λt, βt를 통해 잊힘과 write의 강도를 조절한다. 쓰기 granularity로 Token-State Write(TSW), Sequence-State Write(SSW), Multi-State Write(MSW) 중 선택하며, MSW는 다중 하위 상태를 병렬로 운영해 상호 간섭을 감소시킨다. 학습은 LSFT 손실을 사용하며, 컨텍스트 토큰은 SC에 기록되고 prediction은 Q, Y로 구성된 고정 백본에서 수행된다. 삽입 깊이는 Front/Middle/Back 중 Middle가 가장 안정적으로 성능을 높이며 All Layers에서 최상으로 나타난다.

실무 활용

δ-mem은 frozen backbone에 작은 온라인 메모리 상태를 추가해 기억 정보를 지속적으로 축적하고 어텐션 계산에 직접 관여하도록 한다. 이를 통해 컨텍스트 확장을 늘리지 않고도 기억 기반의 추론을 강화한다.

장기 대화 맥락을 필요로 하는 AI 어시스턴트
메모리-heavy QA 및 대화형 에이전트에서 과거 정보를 지속적으로 활용
다단계 추론이 필요한 시나리오에서 과거 이벤트를 재참조하는 시나리오
메모리-중첩 multi-turn 대화에서 컨텍스트 성능 저하를 완화
시스템 프롬프트 재생성 비용을 줄이는 메모리 기반 보정

코드 공개 여부: 공개

코드 저장소 보기

키워드

δ-memassociative memoryonline statelow-rank correctionsfrozen full-attention backboneMemoryAgentBenchLoCoMo