혼합 정밀도 양자화
레이어 혹은 토큰 단위로 서로 다른 비트폭을 할당하여 KV 캐시를 양자화하는 기법으로, 중요도가 큰 부분은 고정밀을 유지하고 덜 중요한 부분은 저정밀화를 적용한다.