본문으로 건너뛰기
vLLM 스케일링 시 GPU 점유율 대신 대기열 요청 수를 기준으로 삼는 방법 | AI Trends