에필로그 퓨전
행렬 곱셈 연산 직후에 이어지는 활성화 함수나 덧셈 연산을 별도의 커널 호출 없이 하나의 커널 안에서 처리하는 최적화 기법이다. 메모리 대역폭 낭비를 줄여 전체 추론 속도를 향상시킨다.