continuous-batching
새로운 요청이 들어올 때 기존 배치의 처리가 끝날 때까지 기다리지 않고 즉시 배치에 합류시키는 기술이다. 정적 배칭에 비해 처리량(Throughput)을 수 배 이상 향상시킨다.
응답 속도 45초에서 10초로 줄인 LLM 서빙 병목 해결기
LLM 추론 속도와 효율의 정점, vLLM으로 서버 비용 절감하기
M3 울트라에서 Qwen3-80B가 상용 코딩 서비스급 성능을?
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기