fifo
먼저 들어온 데이터를 먼저 처리하는 가장 기본적인 큐(Queue) 관리 방식이다. LLM 서비스에서는 앞선 긴 요청이 끝날 때까지 뒤의 짧은 요청들이 대기해야 하는 병목의 원인이 되기도 한다.
vLLM 성능 저하의 주범, 노이지 네이버 문제를 해결하는 트래픽 제어 게이트웨이
vLLM 성능 저하의 주범 '시끄러운 이웃' 문제를 해결하는 페어니스 게이트웨이