쿠다 그래프
GPU 연산 커널들의 실행 순서를 미리 정의하여 한 번에 제출하는 기술이다. CPU가 개별 커널을 하나씩 실행할 때 발생하는 오버헤드를 줄여 전체 추론 속도를 최적화한다.
RTX 6000으로 구축한 꿈의 로컬 LLM 서버: Qwen3 120 tp/s 달성기
Qwen 3.5의 FP8 KV 캐시 오류 주의: 성능과 안정성 사이의 선택
클라우드 vs 엣지 고민 끝! 하이브리드 추론으로 성능과 비용 다 잡는 법