공유 KV 캐시
모델의 마지막 여러 레이어가 이전 레이어의 Key-Value 상태를 재사용하는 최적화 기법이다. 품질 저하를 최소화하면서 메모리 사용량과 계산량을 줄여 온디바이스 환경에서 긴 컨텍스트 처리를 가능하게 한다.