커널 퓨전
여러 개의 개별 연산 과정을 하나의 GPU 커널로 결합하여 실행하는 최적화 기법이다. 메모리 읽기/쓰기 횟수를 줄여 GPU 연산 효율을 높이고 지연 시간을 단축한다.
넘파이의 편의성에 러스트의 속도를 더한 Corepy v3.0 출시
Python 오버헤드 0에 도전하는 Rust 텐서 엔진 nabla
GPU 비용은 낮추고 속도는 2배 높이는 LLM 추론 최적화 가이드