분산 추론
LLM 추론 과정을 Prefill(입력 처리)과 Decode(토큰 생성) 단계로 물리적으로 분리하여 각각의 자원 요구 사항에 맞춰 독립적으로 확장하고 최적화하는 아키텍처이다. 이를 통해 GPU 자원 활용도를 극대화하고 대규모 워크로드의 처리량을 높인다.