prefill
사용자가 입력한 전체 프롬프트를 한꺼번에 처리하여 첫 번째 출력 토큰을 준비하는 단계이다. 이후 한 토큰씩 생성하는 디코딩 단계보다 연산 집중도가 높다.
GPU 메모리 한계를 넘다: 공유 스토리지로 LLM 추론 처리량 13배 향상
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기