반복 수준 스케줄링
LLM 추론 시 요청 단위가 아닌 개별 토큰 생성(반복) 단위로 스케줄링을 수행하는 기법이다. 한 요청이 완료되는 즉시 새로운 요청을 배치에 투입할 수 있어 GPU 자원 활용도를 극대화한다.