분산 추론(disaggregated-inference)이란 무엇인가요?

Question

Accepted Answer

LLM 추론 과정을 Prefill(입력 처리)과 Decode(토큰 생성) 단계로 물리적으로 분리하여 각각의 자원 요구 사항에 맞춰 독립적으로 확장하고 최적화하는 아키텍처이다. 이를 통해 GPU 자원 활용도를 극대화하고 대규모 워크로드의 처리량을 높인다.

disaggregated-inference