프리필-디코드 분리(prefill-decode-disaggregation)이란 무엇인가요?

Question

Accepted Answer

LLM 추론 과정을 연산 집약적인 첫 토큰 생성 단계(Prefill)와 지연 시간에 민감한 후속 토큰 생성 단계(Decode)로 나누어 서로 다른 컴퓨팅 자원에 할당하는 기술입니다. 이를 통해 두 단계 간의 자원 간섭을 줄이고 전체적인 추론 효율을 높입니다.

prefill-decode-disaggregation