핵심 요약
Transformer 모델의 추론 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위해 층 간 캐시 공유를 제안한다. 기존의 시간축 압축 방식과 달리 깊이 차원의 중복성을 활용하여 메모리 사용량을 획기적으로 줄이면서도 추론 속도를 개선한다.
왜 중요한가
Transformer 모델의 추론 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위해 층 간 캐시 공유를 제안한다. 기존의 시간축 압축 방식과 달리 깊이 차원의 중복성을 활용하여 메모리 사용량을 획기적으로 줄이면서도 추론 속도를 개선한다.
관련 Figure

긴 문맥(40k 토큰) 처리 시 KV 캐시가 모델 가중치보다 훨씬 커질 수 있음을 보여준다. 특히 Llama-2-7B는 캐시가 가중치보다 크며, 최신 모델인 Llama-3.1-8B도 상당한 비중을 차지하여 최적화의 필요성을 강조한다.
Llama-2-7B와 Llama-3.1-8B의 모델 가중치 대비 KV 캐시 메모리 점유율 비교 차트
핵심 기여
Random Cross-Layer Attention (R-CLA) 제안
학습 과정에서 각 레이어가 자신의 KV 상태를 사용할지 혹은 이전 레이어의 상태를 무작위로 재사용할지 결정하게 하여 모델이 다양한 캐시 공유 전략에 적응하도록 만든다.
유연한 추론 시점 캐시 공유 전략
단일 모델 학습만으로 배포 환경의 하드웨어 제약에 따라 캐시 유지 비율(예: 25%, 50%, 100%)을 자유롭게 조절할 수 있는 유연성을 제공한다.
대규모 모델에서의 정규화 효과 발견
데이터가 제한된 미세 조정 환경에서 R-CLA의 무작위성이 정규화 역할을 수행하여 전체 캐시를 사용할 때보다 오히려 성능이 향상되는 결과를 보여준다.
핵심 아이디어 이해하기
Transformer의 Self-Attention은 매 레이어마다 입력 토큰을 고차원 벡터인 Key와 Value로 변환하여 저장하는데, 시퀀스가 길어질수록 이 KV 캐시가 모델 파라미터보다 커지는 메모리 병목이 발생한다. 기존 연구들은 중요도가 낮은 토큰을 삭제하는 시간축 최적화에 집중했으나, 본 논문은 인접한 레이어들이 서로 유사한 정보를 인코딩한다는 깊이 차원의 중복성에 주목한다.
R-CLA는 학습 시 레이어 l이 확률 p로 자신의 KV를 생성하거나, 확률 1-p로 이전 레이어 l'의 KV를 강제로 참조하게 한다. 이는 구조적 수준에서 캐시 누락(Cache Fault)을 시뮬레이션하는 것과 같으며, 모델이 특정 레이어의 고유한 특징 공간에만 의존하지 않고 이전 레이어의 일반적인 의미 표현에서도 필요한 정보를 추출하도록 유도한다.
결과적으로 모델은 추론 시점에 일부 레이어의 캐시 생성을 건너뛰고 이전 레이어의 것을 재사용해도 성능 하락이 거의 없게 된다. 이는 메모리 대역폭 요구량을 줄여 초당 토큰 처리량(Throughput)을 높이고 더 긴 문맥을 처리할 수 있게 한다.
방법론
전체적인 접근 방식은 학습 시 레이어 간의 엄격한 KV 의존성을 깨는 것이다. 표준 Self-Attention이 Q_l, K_l, V_l을 사용하여 연산하는 것과 달리, R-CLA는 Bernoulli 분포에서 샘플링된 결정 변수 d를 도입한다.
d ~ Bernoulli(p)를 계산하여 d=1이면 표준 Self-Attention을 수행하고, d=0이면 이전 레이어 집합 {1, ..., l-1} 중 하나를 균등 분포로 선택하여 해당 레이어의 K_l', V_l'을 참조한다. [레이어 인덱스 입력 → 확률적 샘플링 연산 → 참조할 KV 소스 결정 → 레이어 간 캐시 공유 학습].
추론 시에는 고정된 캐시 공유 전략 S를 정의한다. S에 포함되지 않은 레이어는 가장 가까운 이전 캐시 레이어의 데이터를 재사용한다. [레이어 인덱스 l 입력 → S 포함 여부 확인 → 포함 시 신규 KV 저장, 미포함 시 이전 KV 로드 → 메모리 로드 횟수 감소].
관련 Figure

학습 시에는 확률 p에 따라 무작위 레이어의 KV를 참조하지만, 추론 시에는 고정된 그룹(Group A, B) 단위로 캐시를 공유하여 메모리를 절감하는 구조를 시각화한다.
R-CLA의 학습 시 확률적 라우팅과 추론 시 결정적 공유 메커니즘 다이어그램
주요 결과
Llama-3.1-8B 모델 실험 결과, HotpotQA 데이터셋에서 캐시를 25%만 유지(75% 삭제)했음에도 불구하고 R-CLA 모델은 F1 점수 0.237을 기록하여 기본 모델(0.080) 대비 약 196%의 성능 향상을 보였다.
Qwen3-8B 모델의 경우 100% 캐시 유지 설정에서 R-CLA 적용 시 F1 점수가 0.357로 기본 모델(0.233)보다 53% 이상 향상되는 정규화 효과가 관찰됐다.
추론 효율성 측면에서 Qwen3-8B 기준 32K 문맥 길이에서 4개 레이어마다 캐시를 공유할 경우, KV 캐시 메모리는 4.6GB에서 1.1GB로 4배 감소했으며 전체 피크 메모리는 약 3.5GB 절감됐다. 또한 초당 토큰 처리량은 22.8 tok/s에서 26.1 tok/s로 개선됐다.
관련 Figure

R-CLA(파란색)가 모든 캐시 크기 구간에서 기본 모델(빨간색)보다 높은 성능을 유지함을 보여준다. 특히 33%~50%의 적은 캐시만 사용하는 'Target Efficiency Zone'에서 R-CLA의 우위가 두드러진다.
캐시 유지 비율에 따른 R-CLA 모델과 기본 모델의 F1 점수 및 캐시 크기 트레이드오프 그래프
기술 상세
R-CLA 아키텍처는 레이어 l의 쿼리 프로젝션 Q_l이 이전 레이어들의 다양한 KV 분포와 상호작용하도록 강제하여 견고성을 확보한다. 이는 수학적으로 레이어 간 피처 정렬(Feature Alignment)에 대한 불변성을 학습하는 과정이다.
구현 시 비리더(non-leader) 레이어는 K, V 프로젝션 연산을 완전히 생략하고 HBM(High Bandwidth Memory)으로부터의 로드 및 업데이트 과정을 건너뛴다. 이는 Algorithm 2에 명시된 것처럼 Load/Update 연산을 선택적으로 수행함으로써 메모리 대역폭 오버헤드를 직접적으로 줄인다.
실험 데이터셋으로는 HotpotQA, SQuAD v2, MSMarco, TriviaQA, RepLiQA 등 문맥 유지 능력이 중요한 QA 태스크들을 활용하여 캐시 공유 시의 정보 손실 여부를 엄격히 검증했다.
한계점
R-CLA를 활성화하기 위해서는 모델의 전체 파라미터 업데이트를 포함하는 추가적인 학습 자원이 필요하다. 또한 본 연구는 Mixture-of-Experts(MoE) 아키텍처에 대한 평가는 수행하지 않았으며, 주로 QA 태스크에 집중된 평가가 이루어졌다.
실무 활용
추론 자원이 제한된 에지 디바이스나 대규모 서빙 환경에서 단일 모델로 다양한 메모리 제약 조건을 충족할 수 있는 실용적인 기법이다.
- 메모리가 부족한 모바일 기기에서 8B급 모델의 긴 문맥 처리
- GPU 메모리 대역폭 병목으로 인한 LLM 추론 속도 저하 해결
- 단일 가중치 세트로 고성능 서버와 저사양 기기에 맞춤형 캐시 전략 배포
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.