pre-fill
LLM 추론의 첫 단계로, 입력된 전체 프롬프트를 한꺼번에 처리하여 이후 토큰 생성에 필요한 KV 캐시를 생성하는 과정이다. 연산 집약적인 특성을 가진다.
GPU만으로는 부족하다? AI 서비스 성공을 결정짓는 배치 크기의 비밀