퍼시스턴트 커널
GPU의 스트리밍 멀티프로세서(SM) 자원을 미리 점유하고 커널 내부에서 작업을 스스로 스케줄링하는 방식이다. 커널 호출 오버헤드를 줄이고 동적인 작업 할당을 통해 하드웨어 활용률을 극대화한다.