FP8 KV 캐시
KV 캐시 데이터를 8비트 부동소수점 형식으로 양자화하여 저장하는 방식이다. 메모리 점유율을 절반으로 줄여 더 긴 컨텍스트를 처리하거나 더 큰 배치를 구성할 수 있게 하며 메모리 대역폭 병목을 완화한다.