추론 배칭
여러 개의 추론 요청을 하나로 묶어 동시에 처리하는 기법이다. 개별 요청을 따로 처리할 때보다 GPU 메모리 대역폭을 효율적으로 사용하여 단위 시간당 처리량(throughput)을 극대화할 수 있다.