KV 로테이션
추론 과정에서 Key-Value 캐시의 정확도를 유지하면서 압축 효율을 높이는 기술적 처리 방식이다. 높은 압축률에서도 모델의 문맥 이해 능력이 저하되는 것을 방지하여 1비트 모델의 실용성을 높이는 데 기여한다.