TL;DR
긴 맥락에서 KV 캐시가 기하급수적으로 커지며 주의 집중이 분산된다. 본 연구는 학습 가능한 retention 게이트로 캐시 엔트리를 글로벌 예산 아래 동적으로 선택·할당하고, 필요 토큰의 유지가 불필요 토큰의 제거보다 더 큰 효율·정확도 이득을 낳는다는 점을 보여준다. 이로써 풀-캐시 인퍼런스에 근접하거나 이를 넘어서는 성능을 더 적은 KV 메모리로 달성할 수 있다.
왜 중요한가
긴 맥락에서 KV 캐시가 기하급수적으로 커지며 주의 집중이 분산된다. 본 연구는 학습 가능한 retention 게이트로 캐시 엔트리를 글로벌 예산 아래 동적으로 선택·할당하고, 필요 토큰의 유지가 불필요 토큰의 제거보다 더 큰 효율·정확도 이득을 낳는다는 점을 보여준다. 이로써 풀-캐시 인퍼런스에 근접하거나 이를 넘어서는 성능을 더 적은 KV 메모리로 달성할 수 있다.
핵심 기여
글로벌 KV eviction 정책의 제안
레이어/헤드/모달리티를 초월해 단일 글로벌 KV 예산(Mglobal) 하에서 캐시를 관리하고, retained 토큰의 미래 유용성을 예측하는 점수(G̃ℓ,h,i(t))를 사용해 엔트리를 순위화한다.
weight-tied retention gates 도입
레이어/헤드마다 게이트를 두되 최종 스코어는 공유된 선형 변환으로 산출되어, 서로 다른 위치의 토큰들 간에 retention 점수를 동일한 척도로 비교 가능하게 한다. 이로써 글로벌 eviction에 필요한 동적 버짓 배분이 가능해진다.
기하학적(retention) 모형의 정당화
토큰의 미래 유용성은 단기 로그잇에 의한 현재 어텐션과 달리, 시간에 따라 기하적으로 감소하는 경향이 있으며, 이를 rt,i = βi^(t−i) 형태로 근사하면 토큰의 지속적 가치가 반영된다.
이론적 분석과 실험적 검증
attention dilution의 감소 효과를 이론적으로 보이고, 다중 모달 및 장문-context 벤치마크에서 full-cache 대비 메모리 절감과 정확도 유지/향상을 확인한다. LongBench-V2에서 9.20% 평균 정확도 개선을 보인다.
핵심 아이디어 이해하기
출발점: self-attention은 현재 쿼리와 모든 과거 토큰 간의 관계를 계산하므로, 컨텍스트가 길어질수록 distractor 토큰이 증가해 유용한 토큰의 주의 집중이 희석된다. 제안은 두 가지 축으로 작동한다. 첫째, retention gates로 각 캐시 항목의 미래 유용도를 예측하고, 둘째, 하나의 글로벌 KV 예산 아래 모든 계층/헤드의 엔트리를 함께 정렬해 캐시를 동적으로 할당한다. 결과적으로 불필요한 토큰의 제거가 주의 집중을 개선하고, 낮은 메모리 비용으로도 full-cache 성능에 근접하거나 향상될 수 있다. 실험은 텍스트-언어와 멀티모달(MM) 벤치마크에서 일관되게 메모리 사용량을 낮추면서 성능을 유지하거나 향상시켰다.
관련 Figure

토큰의 지속성 β가 높은 토큰일수록 장기간 버전에 더 많이 남아 있어, 장문 컨텍스트에서의 eviction 정책이 장기적으로 유용한 토큰에 집중되도록 돕는다는 점을 시사한다.
토큰 생존 곡선을 보여주는 다이어그램으로, 레이어 15, 헤드 24에서 토큰 생존 확률의 차이가 길이가 길어질수록 유지 토큰의 비중이 어떻게 변화하는지 시각화했다.
방법론
입력: 토큰 시퀀스와 KV 캐시를 초기화한다. 계산: 각 토큰 i에 대해 retention 게이트가 βℓ,h,i를 예측하고, 이를 rt,i = βℓ,h,i^(t−i) 형태로 정의한다. 패스: 게이트의 최종 Projection는 모든 레이어/헤드에서 공유된다. 학습 목표: Lquality = DKL(p ∥ qθ ) + E(x,y)[−log qθ(y|x)], Lcap = Σℓ, h max(0, Σt i=1 βt−iℓ,h,i − Mglobal). 총손실 L = Lquality + λ Lcap. 추론: G̃ℓ,h,i(t) = ΣT s=t+1 βs−iℓ,h,i / (1 − βT−tℓ,h,i) 값을 이용해 토큰(ℓ,h,i)을 전역 순위화하고 상위 Mglobal 엔트리를 캐시에 보존한다. 구현: 가변 길이 시퀀스의 캐시를 관리하는 paged-attention 구조를 도입하고, retention gate은 xt를 입력으로 사용해 βi를 예측한다. 보정: 최종 점수 Projection를 전적으로 tying해 계층 간 점수의 비교 가능성을 확보한다.
관련 Figure

다양한 헤드와 레이어 간에 어떤 토큰들이 캐시에 남아 있는지 전반적 분포를 시각화하여, global retention 정책이 per-head budgets 없이도 효율적으로 작동함을 보인다.
Top-K=128에서 KV 캐시의 분포를 히트맵으로 보여주는 그림.

토큰별 retention 점수 계산, 글로벌 정렬, 페이지형 KV 캐시 관리가 하나의 파이프라인으로 연결되는 구조를 시각적으로 보여준다.
DBTrimKV의 아키텍처 다이어그램.

가변 길이 KV 시퀀스를 각 헤드가 독립적으로 관리하도록 하여, 동적 예산 하에서도 캐시 효율을 유지하도록 한다는 점을 시각적으로 확인시켜준다.
PagedAttention 아키텍처 다이어그램.
주요 결과
주요 벤치마크에서 DBTrimKV는 TrimKV 및 SnapKV 같은 대비 방법보다 우수하거나 동등한 성능을 달성하고, 메모리 버짓이 낮아질수록 이점이 커진다. 예를 들어 LongBench-V2 벤치마크에서 Full KV 대비 9.20% 평균 향상을 기록했고, 512 예산에서 14% 차이로 full-cache를 상회하는 경우가 관찰된다. 단일 모달 텍스트 태스크에서도 다양한 버짓에서 full-cache 대비 성능 저하를 크게 방지한다. 효율성 측면에서도, 더 긴 컨텍스트/생성 길이에 대해 Vanilla 대비 decodings 시간이 감소하거나 비례적 증가를 억제하는 경향이 있다. ablation에서 weight tying의 제거는 성능 저하를 유발하며, gate 입력으로 xt를 사용하는 구성이 더 나은 성능을 보였다.
관련 Figure

텍스트 기반 장문 추론에서의 성능 향상을 확인하며, LongBench-V2와 같은 벤치마크에서의 이점이 부각된다.
장문 추론 벤치마크에서의 성능 비교 그래프(주로 Qwen3-4B 기반).

시각 토큰의 유지가 문제 해결에 직접적으로 기여하는 방식(좌우로 구조적 앵커를 유지하는 등)을 보여주며, 멀티모달 분석에서의 eviction 효과를 시각적으로 보강한다.
Figure 14: MMMU-Vision-Pro 데이터셋에 대한 유지 시각 토큰 시각화.
기술 상세
아키텍처: L 레이어 × H 헤드의 구조에서 각 토큰에 대해 βℓ,h,t를 예측하는 retention gate를 도입하고, final projection는 모든 레이어/헤드에서 묶여 있다. 학습: Lquality + Lcap 손실로 학습, Lcap은 글로벌 KV 버짓 Mglobal를 넘지 않도록 제약한다. 차별점: per-layer/per-head 고정 예산 대신 하나의 글로벌 예산과 학습 가능한-retention score로 토큰의 미래 유용도를 평가해 순위를 매김. 구현 세부: LLM 가중치는 고정하고 retention gates만 학습시키며, PagedAttention으로 가변 길이 KV 캐시를 실현한다. 이론적 근거: Geometric retention(βi) 기반으로 토큰의 미래 지속성을 모델링하고, Assumptions A.1, A.2를 통해 exponential persistence를 보장하는 경향을 보인다. 데이터/실험: 텍스트 및 비주얼-언어 벤치마크에서 full-cache 대비 메모리 절감과 성능 유지/향상을 확인했다. 한계점으로는 대형 frontier-scale(model>70B)에서의 확장성 및 엔드-투-엔드 학습의 필요성 등이 per-study로 남아 있다.
한계점
연구는 retention 게이트의 학습만 수행하고 LLM 자체는 고정된 상태로 실험을 수행한다. 더 큰 모델(70B+)에서의 확장성 및 엔드-투-엔드 학습 시 효과를 확인하지 않았다. lookahead 파라미터의 일반화는 데이터에 의존적이며, 최적의 lookahead를 고정하기보다 케이스에 따라 달라질 수 있다.
실무 활용
긴 맥락에서 KV 캐시를 효율적으로 관리하기 위한 학습 기반 eviction 기법으로, 메모리 비용을 줄이면서도 full-cache에 근접 또는 이를 초과하는 성능을 제공한다.
- 다중 턴 대화형 비주얼-LM에서 긴 대화 기록을 효율적으로 유지·재활용
- 장문 텍스트 생성에서 KV 캐시의 메모리 대역폭을 제한하면서도 품질 저하를 최소화
- 멀티모달 추론에서 시각 토큰과 텍스트 토큰 간의 자원 배분을 동적으로 조정
- 대용량 파이프라인에서 서버 리소스가 제한된 환경에서의 추론 가속
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.