접두사 캐싱
프롬프트의 공통된 앞부분(시스템 메시지 등)을 미리 계산하여 저장해두는 기술이다. 반복되는 문맥을 재계산하지 않아 TTFT를 획기적으로 줄여준다.
M3 울트라에서 Qwen3-80B가 상용 코딩 서비스급 성능을?