프리필 대 디코드
LLM 추론의 두 단계로, 입력 프롬프트를 한꺼번에 처리하는 프리필(연산 집약적)과 토큰을 하나씩 생성하는 디코드(메모리 집약적) 단계를 의미한다.
AMD GPU에서 LLM 추론 속도 4.4배 향상? vLLM의 새로운 ROCm 백엔드 공개