소프트맥스 퓨전
여러 단계의 연산을 하나의 커널로 결합하여 메모리 접근 횟수를 줄이는 최적화 기법이다. 중간 결과값을 메모리에 썼다 읽는 과정을 생략함으로써 추론 속도를 향상시킨다.