TensorRT-LLM
NVIDIA GPU에서 대형 언어 모델의 추론 성능을 최적화하기 위한 라이브러리입니다. 커스텀 커널, 효율적인 메모리 관리, 양자화 지원 등을 통해 최신 모델의 실행 속도를 비약적으로 향상시킵니다.