본문으로 건너뛰기
vLLM 추론 확장: GPU 사용률보다 대기열 깊이가 더 나은 오토스케일링 신호인가? | AI Trends