TensorRT-LLM
NVIDIA GPU에서 대형 언어 모델의 추론 성능을 최적화하기 위한 라이브러리입니다. 커스텀 커널, 효율적인 메모리 관리, 양자화 지원 등을 통해 최신 모델의 실행 속도를 비약적으로 향상시킵니다.
Cursor가 NVIDIA Blackwell로 코딩 지연 시간을 잡은 비결