KVarN: KV-Cache 양자화를 위한 새로운 기법 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Hadamard 회전과 분산 정규화를 결합하여 KV-Cache를 3-4배 압축하면서도 정확도 손실을 1% 미만으로 유지하는 KVarN 기법.

사용자가 KV-Cache 양자화 기법인 KVarN을 개발하여 커뮤니티에 공유했다. 이 기법은 추론 성능 향상과 메모리 절감을 목표로 한다.

KVarN은 Hadamard 회전과 K/V 행렬의 양축에 대한 분산 정규화를 결합하여 KV-Cache를 양자화한다. 이 방식은 추론 시 발생하는 오차를 줄여 3-4배의 압축률을 달성한다.

오차 분석 결과, 작은 오차를 많이 줄이는 것보다 큰 오차를 해결하는 것이 성능 유지에 더 효과적임이 확인됐다. 큰 오차는 주로 잘못된 토큰 스케일에서 발생하며, 정규화가 이를 보정한다.

AIME24 벤치마크에서 정확도 손실은 0-1% 수준에 그쳤으며, vLLM 환경에서 fp16 베이스라인 대비 추론 속도 향상을 보였다. 이는 추론이 많은 에이전트나 코드 생성 작업에서 유리하다.

KV-Cache: — LLM 추론 시 이전 토큰의 Key와 Value 값을 저장하여 재계산을 방지하는 메모리 구조. 추론 속도를 높이지만 모델 크기가 커질수록 메모리 사용량이 급증하는 문제가 있다.
Quantization: — 모델의 가중치나 활성화 값을 낮은 정밀도(예: int8, int4)로 변환하여 메모리 사용량을 줄이고 연산 속도를 높이는 기법. 정확도 손실을 최소화하는 것이 핵심이다.
Hadamard Rotation: — 행렬의 값을 분산시켜 양자화 시 발생하는 오차를 줄이기 위해 사용되는 선형 변환 기법. 데이터의 분포를 고르게 만들어 양자화 효율을 높인다.

vLLM추천링크

추론 엔진