핵심 요약
LLM이 복잡한 추론을 수행할 때 발생하는 방대한 KV 캐시 메모리 병목 문제를 해결하는 새로운 압축 기법이다. 기존 방식과 달리 RoPE 회전 이전의 안정적인 벡터 공간을 활용하여, 메모리 사용량을 획기적으로 줄이면서도 추론의 정확도를 유지할 수 있음을 증명했다.
왜 중요한가
LLM이 복잡한 추론을 수행할 때 발생하는 방대한 KV 캐시 메모리 병목 문제를 해결하는 새로운 압축 기법이다. 기존 방식과 달리 RoPE 회전 이전의 안정적인 벡터 공간을 활용하여, 메모리 사용량을 획기적으로 줄이면서도 추론의 정확도를 유지할 수 있음을 증명했다.
핵심 기여
Pre-RoPE 공간에서의 Q/K 응집 현상 발견
RoPE(Rotary Position Embedding)가 적용되기 전의 Query와 Key 벡터들이 특정 중심점 주위에 강하게 응집되어 있으며, 이 특성이 입력 문맥이나 위치에 관계없이 모델 고유의 속성으로 안정적으로 유지됨을 확인했다.
삼각 함수 기반의 거리 선호도 예측 모델
응집된 Q/K 중심점을 활용하여 특정 거리의 토큰에 대한 Attention 점수를 예측하는 삼각 급수(Trigonometric Series) 공식을 도출했다. 이를 통해 미래의 Query가 어떤 과거 토큰을 중요하게 여길지 미리 계산할 수 있다.
TriAttention 압축 알고리즘 제안
예측된 거리 선호도 점수와 벡터의 Norm 정보를 결합하여 토큰의 중요도를 산출하고, 중요도가 낮은 토큰을 KV 캐시에서 제거하는 효율적인 관리 기법을 구현했다.
추론 성능 및 효율성 대폭 향상
AIME25 벤치마크에서 Full Attention과 대등한 정확도를 유지하면서도 처리량(Throughput)을 2.5배 높이거나 KV 메모리를 10.7배 절감하는 성과를 거두었다.
핵심 아이디어 이해하기
Transformer 모델은 문장이 길어질수록 과거의 정보를 저장하는 KV 캐시가 기하급수적으로 커져 메모리 부족 문제를 일으킨다. 기존의 압축 방식은 최근의 Attention 점수를 보고 중요도를 판단하지만, RoPE라는 위치 인코딩 기술 때문에 Query 벡터가 위치마다 계속 회전하므로 관찰 창이 좁아지면 중요한 정보를 놓치기 쉽다는 한계가 있다.
이 논문은 RoPE 회전이 적용되기 전인 'Pre-RoPE' 공간에 주목했다. 분석 결과, 이 공간에서 Query와 Key 벡터들은 무작위로 흩어져 있는 것이 아니라 특정 방향(중심점)을 향해 뭉쳐 있는 'Q/K Concentration' 현상을 보였다. 이 중심점들은 모델이 학습 과정에서 획득한 고유한 특성으로, 어떤 거리의 토큰을 선호하는지를 결정하는 유전 정보와 같다.
연구진은 이 고정된 중심점들을 삼각 함수 공식에 대입하면, 미래에 어떤 위치에서 Query가 들어오더라도 특정 거리(예: 아주 가까운 곳 혹은 아주 먼 곳)에 있는 토큰이 얼마나 많은 관심을 받을지 수학적으로 예측할 수 있음을 발견했다. 즉, 현재의 Attention 점수만 보는 것이 아니라 모델의 내재된 선호도를 파악해 미래에도 계속 중요할 토큰을 정확히 골라낼 수 있게 된 것이다.
방법론
TriAttention의 핵심은 오프라인 캘리브레이션과 온라인 중요도 산출의 결합이다. 먼저 소량의 데이터셋을 사용하여 각 Attention Head별로 Pre-RoPE 공간에서의 Query 중심점 E[q]와 Key 중심점 E[k]를 미리 계산한다. 이 중심점들은 모델의 내재적인 거리 선호도를 나타내는 지표로 활용된다.
실제 추론 시에는 두 가지 신호를 결합하여 각 토큰(Key)의 점수를 매긴다. 첫 번째는 삼각 급수 점수 Strig로, [Query 중심점과 현재 Key 벡터를 입력으로] → [삼각 함수 기반의 내적 근사 연산을 수행해] → [미래의 특정 거리 Δ에서 받을 예상 Attention 값을 얻고] → [해당 토큰이 구조적으로 얼마나 중요한지]를 판단한다. 두 번째는 Norm 기반 점수 Snorm으로, 벡터의 크기가 클수록 정보량이 많다는 가정을 반영한다.
최종 점수 S는 Q/K 응집도 지표인 Mean Resultant Length(R)를 가중치로 사용하여 두 점수를 적응적으로 혼합한다. [응집도 R이 1에 가까우면] → [삼각 급수 점수에 높은 가중치를 부여하고] → [R이 낮으면] → [Norm 기반 점수의 비중을 높여] → [예측의 신뢰도를 보정한다]. 이후 128토큰마다 윈도우 단위로 점수가 낮은 토큰을 캐시에서 제거하여 메모리 사용량을 일정하게 유지한다.
주요 결과
Qwen3-8B 모델을 사용한 AIME25 수학 추론 벤치마크에서, TriAttention은 Full Attention의 정확도(40.8%)를 그대로 유지하면서 KV 캐시 메모리를 10.7배 줄이는 데 성공했다. 이는 기존의 선도적 기법인 R-KV가 동일한 효율성에서 절반 수준의 정확도만 보인 것과 대조적이다.
처리량 측면에서도 괄목할만한 성장을 보였다. 동일한 정확도 기준에서 TriAttention은 Full Attention 대비 2.5배 높은 토큰 생성 속도를 기록했다. 특히 MATH 500 데이터셋에서는 KV 캐시를 단 1,024개로 제한했음에도 불구하고 Full Attention(69.6%)에 근접한 68.4%의 정확도를 달성했다.
추가로 진행된 '재귀적 상태 쿼리(Recursive State Query)' 실험을 통해, TriAttention이 복잡한 추론 과정에서 중간 단계의 정보를 잃지 않고 끝까지 유지하는 능력이 기존 방식보다 월등히 뛰어남을 입증했다. 이는 긴 체인 오브 쏘트(CoT)가 필요한 추론 작업에서 TriAttention의 안정성을 뒷받침한다.
기술 상세
TriAttention은 RoPE의 수학적 구조를 분석하여 Attention Logit이 Pre-RoPE 벡터들의 위상 차이에 의한 삼각 급수로 표현될 수 있음을 이론적으로 증명했다. 구체적으로 logit(Δ) ≈ Σ ||q_f|| ||k_f|| cos(ω_f Δ + φ_f) 형태의 공식을 도출했으며, 여기서 ω_f는 RoPE의 주파수, Δ는 토큰 간 거리를 의미한다.
이 기법의 차별점은 '정적 중심점'의 활용이다. 기존의 H2O나 SnapKV가 동적인 Attention Score에 의존하여 '관찰 창(Observation Window)'의 한계에 갇혔던 것과 달리, TriAttention은 모델의 가중치에 내재된 통계적 중심을 사용함으로써 훨씬 긴 범위의 미래 Attention 패턴을 안정적으로 예측한다.
구현 측면에서는 GQA(Grouped-Query Attention) 구조를 지원하기 위해 각 Query Head의 점수를 Z-score로 정규화한 뒤 최대값(Max-pooling)을 취하는 방식을 채택하여 여러 Query가 공유하는 Key의 중요도를 공정하게 평가한다. 또한 128토큰 단위의 배치형 프루닝(Window-based Pruning)을 통해 매 토큰마다 계산이 발생하는 오버헤드를 최소화했다.
한계점
현재 구현은 범용적인 최적화 수준이며, TriAttention의 고유한 연산 구조에 최적화된 하드웨어 가속 커널(Dedicated Inference Kernel)이 개발된다면 더 높은 속도 향상을 기대할 수 있다. 또한 현재는 수학 및 코딩 도메인 위주로 검증되었으므로 더 넓은 일반 도메인에 대한 추가 검증이 필요할 수 있다.
실무 활용
TriAttention은 긴 문맥을 처리해야 하는 추론 특화 LLM의 서빙 비용을 획기적으로 낮출 수 있는 실용적인 기술이다. 특히 메모리가 제한된 소비자용 GPU에서도 긴 추론 과정을 안정적으로 수행할 수 있게 해준다.
- 단일 RTX 4090 GPU 환경에서 수만 토큰 이상의 긴 추론 과정을 거치는 에이전트(OpenClaw 등) 배포
- 수학 문제 풀이, 복잡한 코드 생성 등 긴 Chain-of-Thought가 필요한 서비스의 인프라 비용 절감
- 실시간 대화형 AI에서 과거 대화 맥락을 메모리 효율적으로 장기 보존해야 하는 경우
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.