디스패치 오버헤드
CPU가 GPU에 연산 명령을 전달하고 실행을 요청하는 과정에서 발생하는 지연 시간이다. LLM 추론처럼 수많은 작은 커널을 연속적으로 실행해야 하는 환경에서는 이 오버헤드가 실제 연산 시간보다 길어져 전체 성능의 병목이 된다.