operator-fusion
여러 개의 신경망 연산을 하나의 연산 단위로 합쳐 메모리 접근 횟수를 줄이는 최적화 기법이다. 실행 속도는 빨라지지만 융합 방식에 따라 중간 연산의 정밀도가 달라질 수 있다.
같은 모델인데 정확도가 20% 차이? 스냅드래곤 칩셋별 성능 충격 결과