KV 양자화
어텐션 연산에 사용되는 Key와 Value 캐시의 정밀도를 낮춰 메모리 점유율을 줄이는 기법이다. 긴 컨텍스트를 처리할 때 VRAM 부족 문제를 해결하는 데 필수적이다.
RTX 4090에서 초당 150토큰 달성한 N-gram 기반 LongCat 모델