FP4 양자화
FP4 quantisation은 데이터 표현을 4-bit 고정소수점 형식으로 축소하여 연산량과 KV 캐시 트래픽을 줄이는 기법이다. 하지만 이 과정에서 쿼리-키 점수의 큰 편차에 따른 양자화 오차가 출력에 큰 영향을 주고 누적될 수 있다. ThriftAttention은 중요한 블록을 FP16으로 처리하고 나머지를 FP4로 처리하는 방식을 채택해 긴 컨텍스트에서도 품질을 회복한다.