터보퀀트
LLM의 KV 캐시를 효율적으로 압축하기 위해 제안된 새로운 양자화 기법이다. 기존 방식보다 높은 압축률을 제공하여 메모리가 제한된 환경에서 더 긴 컨텍스트를 처리할 수 있게 돕는다.