KV 캐시 포킹
LLM 추론 시 이전 토큰들의 키-값 쌍을 저장한 캐시를 복제하여 여러 갈래의 텍스트 생성을 동시에 진행하는 기술이다. 동일한 컨텍스트를 공유하는 여러 작업을 수행할 때 토큰 계산을 중복으로 하지 않아도 되므로 병렬 처리 속도를 획기적으로 높이고 비용을 절감하는 핵심적인 역할을 한다.