핵심 요약
RAG 시스템에서 동일한 문서를 여러 번 참조할 때마다 발생하는 중복 계산 문제를 해결합니다. 기존 방식과 달리 모델 수정이나 재계산 없이도 미리 저장된 캐시를 즉시 결합할 수 있어 추론 속도를 획기적으로 높이고 비용을 절감합니다.
왜 중요한가
RAG 시스템에서 동일한 문서를 여러 번 참조할 때마다 발생하는 중복 계산 문제를 해결합니다. 기존 방식과 달리 모델 수정이나 재계산 없이도 미리 저장된 캐시를 즉시 결합할 수 있어 추론 속도를 획기적으로 높이고 비용을 절감합니다.
핵심 기여
KV Packet 추상화 도입
저장된 문서 캐시를 변경 불가능한 '패킷'으로 취급하고, 이를 가벼운 Soft-token Adapter로 감싸는 구조를 제안했다. 이를 통해 서로 다른 문서 캐시를 재계산 없이 직접 연결할 수 있다.
자기 지도 증류 기반 정렬
학습 가능한 어댑터가 문맥 간의 불연속성을 메우도록 모델 자신의 출력을 모방하는 증류 방식을 사용했다. 이 과정에서 베이스 모델의 가중치는 고정되어 성능 저하를 방지한다.
추론 효율성 극대화
기존의 선택적 재계산 방식 대비 연산량(FLOPs)을 약 4~6 오더(10,000~1,000,000배) 감소시켰으며, TTFT를 최대 19.45배 단축했다.
KV 압축 기술과의 호환성
재계산이 필요 없는 구조적 특성 덕분에 기존의 다양한 KV 캐시 압축 및 프루닝 기법들과 충돌 없이 결합하여 메모리 사용량을 추가로 줄일 수 있다.
핵심 아이디어 이해하기
Transformer의 Attention Mechanism은 특정 토큰의 의미를 계산할 때 앞서 나온 모든 토큰과의 관계를 참조한다. 이 때문에 문서 A 뒤에 문서 B가 올 때와 문서 C 뒤에 문서 B가 올 때, 문서 B의 내부 표현(KV Cache)은 주변 문맥에 따라 달라져야만 했다. 기존에는 이를 해결하기 위해 문서의 일부를 다시 계산하거나 모델 전체를 미세 조정해야 했다.
KV Packet은 문서의 시작과 끝에 아주 짧은 '학습 가능한 토큰(Header/Trailer)'을 붙여 이 문제를 해결한다. 이 특수 토큰들은 문맥이 바뀔 때 발생하는 신호의 왜곡을 흡수하는 완충재 역할을 수행한다. 즉, 문서 본체의 캐시는 건드리지 않고 앞뒤의 어댑터 토큰들만으로 문맥의 흐름을 매끄럽게 연결하는 원리이다.
결과적으로 모델은 독립적으로 계산된 문서 캐시들을 마치 하나의 연속된 문장처럼 인식하게 된다. 이는 복잡한 재계산 과정 없이 단순히 캐시를 이어 붙이는 것만으로도 전체 문맥을 완벽하게 이해할 수 있게 하며, 특히 수많은 문서를 참조해야 하는 RAG 환경에서 추론 효율을 극대화한다.
관련 Figure

단순 결합 시에는 문서 시작 부분에 비정상적인 Attention 집중(Sink)이 발생하지만, KV Packet은 Header와 Trailer가 이 집중을 흡수하여 문서 내부 토큰으로 주의를 분산시킴으로써 문맥 흐름을 회복함을 보여준다.
문서 경계에서의 Attention Score 분포를 분석한 시각화 자료이다.
방법론
전체 시스템은 오프라인 캐시 생성 단계와 온라인 추론 단계로 나뉜다. 오프라인에서는 각 문서를 [Header; Document; Trailer] 형태로 구성하여 KV 캐시를 미리 생성한다. 이때 Header와 Trailer는 학습 가능한 Soft-token Adapter이다.
핵심 메커니즘은 Self-Supervised Distillation을 통한 어댑터 학습이다. Teacher 모델이 전체 문맥을 한 번에 읽고 내놓는 토큰 확률 분포 P_teacher를 정답으로 삼는다. Student 모델은 독립적으로 생성된 KV Packet들을 연결하여 확률 분포 P_student를 계산한다. 두 분포 사이의 Kullback-Leibler Divergence를 계산하여 그 차이를 최소화하는 방향으로 어댑터의 가중치를 업데이트한다. [두 확률 분포 입력 → KL Divergence 연산 → 손실값 출력 → 어댑터 가중치 갱신 의미]
온라인 추론 시에는 저장된 KV Packet을 불러와 RoPE(Rotary Positional Embedding) 변환만 수행한다. 기존 위치 s에 있던 Key 벡터 k_i에 대해 회전 행렬 R을 곱해 새로운 위치 s+delta로 이동시킨다. [Key 벡터와 이동 거리 입력 → 회전 행렬 곱셈 → 위치 조정된 Key 출력 → 재계산 없는 문맥 통합 의미]
관련 Figure

기존 방식은 추론 시 중요한 토큰을 선택하고 재계산하는 과정이 필요하지만, KV Packet은 오프라인에서 어댑터와 함께 캐시를 생성한 뒤 온라인에서는 단순 결합만 수행하여 재계산 과정을 완전히 제거함을 보여준다.
기존의 재계산 기반 방식(a)과 제안된 KV Packet 방식(b)의 아키텍처 비교도이다.
주요 결과
Llama-3.1-8B 및 Qwen2.5-3B 모델을 대상으로 Needle-in-a-Haystack, HotpotQA 등 다양한 벤치마크에서 성능을 검증했다. KV Packet은 재계산을 전혀 하지 않음에도 불구하고, 모든 토큰을 다시 계산하는 Full Recompute 방식에 근접한 F1 점수를 기록했다.
효율성 측면에서 Full Recompute 대비 연산량(FLOPs)을 5~6 오더 낮추었으며, 이는 기존의 최적화 기법인 CacheBlend나 EPIC보다도 압도적으로 적은 수치이다. 특히 Needle-in-a-Haystack 테스트에서 TTFT를 19.45배, MusiQue 테스트에서 5.81배 단축하는 성과를 보였다.
KV 압축 실험에서는 TOVA, KVzap 등 최신 압축 알고리즘과 결합했을 때도 성능 하락이 적었으며, 특히 무작위 프루닝(Random Pruning) 상황에서도 기존 방식보다 훨씬 견고한(Robust) 성능 유지 능력을 입증했다.
관련 Figure

KV Packet(별표)이 그래프의 좌상단에 위치하여, 매우 낮은 연산량과 지연 시간으로도 전체 재계산 방식에 근접하는 높은 성능을 달성함을 시각적으로 증명한다.
다양한 데이터셋에서 F1 점수 대비 연산량(FLOPs)과 지연 시간(TTFT)을 비교한 그래프이다.
기술 상세
KV Packet 아키텍처는 고정된 베이스 모델 M과 학습 가능한 어댑터 파라미터 phi={H, T}로 구성된다. Header(H)와 Trailer(T)는 각각 N_h, N_t 개의 연속적인 벡터 시퀀스이다. 각 문서는 이 어댑터들로 래핑되어 독립적인 패킷 P(D; phi)로 정의된다.
기술적 차별점은 'Boundary Artifacts' 가설에 기반한다는 점이다. 저자들은 성능 저하의 주원인이 단순한 문맥 부재가 아니라, 문서 경계에서 발생하는 Attention Sink 현상과 급격한 토큰 분포 변화라고 진단했다. 어댑터는 이러한 경계 노이즈를 흡수하여 Attention 스코어가 문서 내부의 유의미한 토큰에 집중되도록 유도한다.
학습 시에는 베이스 모델의 가중치를 고정(Frozen)하므로 Catastrophic Forgetting 문제가 발생하지 않으며, 메모리 요구량도 매우 적다. 또한 특정 도메인에 특화된 어댑터뿐만 아니라 여러 데이터셋을 섞어 학습한 Universal Adapter가 범용적인 상황에서 가장 안정적인 성능을 보임을 확인했다.
한계점
어댑터의 효과가 학습 데이터의 분포와 실제 검색된 문서의 분포가 어느 정도 일치할 때 극대화된다는 가정이 있다. 또한, 문서 간의 의존성이 매우 높은 다단계 추론(Multi-step reasoning) 과정에서의 동작 특성에 대해서는 추가적인 연구가 필요하다.
실무 활용
대규모 문서 저장소를 활용하는 RAG 시스템이나 긴 대화 기록을 유지해야 하는 챗봇 서비스에 즉시 적용 가능하다. 모델 수정 없이 어댑터만 추가하므로 배포가 용이하다.
- 수만 개의 기술 문서를 참조하는 기업용 RAG 시스템의 응답 속도 개선
- 긴 소설이나 코드를 컨텍스트로 유지해야 하는 AI 어시스턴트의 비용 최적화
- 동일한 문서를 여러 사용자가 반복해서 조회하는 지식 베이스 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
k_shifted = RoPE_rotation(k_cached, delta)RoPE를 사용하여 캐시된 Key 벡터의 위치 인덱스를 새로운 문맥에 맞춰 조정하는 연산 예시
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.