cuda-kernel
NVIDIA GPU에서 병렬로 실행되는 함수 단위이다. 모델 실행 초기 단계에서 이 커널들이 컴파일되거나 로드되는 과정에서 일시적인 지연(Latency)이 발생할 수 있다.
Claude 4.5를 압도하는 CUDA 최적화 AI, torch.compile보다 2배 빠르다
응답 속도 45초에서 10초로 줄인 LLM 서빙 병목 해결기
CUDA 없이 PyTorch만으로 3D 가우시안 스플래팅 구현하기
ARC-AGI 점수를 89.5%까지 끌어올린 AI 최적화 도구 공개
ARC-AGI 정확도 32%에서 89%로 폭등시킨 UC 버클리의 범용 최적화 도구