Prefill-Decode 분리(pd-disaggregation)이란 무엇인가요?

Question

Accepted Answer

LLM 추론의 두 단계인 Prefill(입력 처리)과 Decode(출력 생성)를 물리적으로 분리된 컴퓨팅 자원에서 실행하는 아키텍처이다. 연산 집약적인 Prefill과 메모리 대역폭 집약적인 Decode를 각각 최적화된 하드웨어에 할당하여 전체 시스템 효율을 극대화한다.

pd-disaggregation

비슷한 개념