헤드 오브 라인 블로킹
네트워크나 프로세스에서 앞선 요청의 처리가 길어져 뒤따르는 요청들이 대기하게 되는 병목 현상이다. LLM 서빙에서는 긴 문장의 토큰 처리가 짧은 문장의 처리를 가로막아 전체적인 응답 지연을 초래하는 상황을 의미하며 이를 해결하는 것이 성능 최적화의 핵심이다.