프리필 단계
LLM이 입력 프롬프트 전체를 한꺼번에 처리하여 초기 KV 캐시를 생성하는 단계이다. 연산 집약적이며 GPU 자원을 많이 소모한다.
프롬프트 복사해서 한 번 더 붙였을 뿐인데... LLM 정확도가 76% 급등?
vLLM CPU 오프로딩으로 LLM 추론 처리량 최대 9배 향상하기