RTX 5090에서 vLLM을 이용한 Nemotron 추론 벤치마크 및 설정 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

RTX 5090 환경에서 vLLM을 사용하여 Nemotron 모델을 BF16으로 구동한 벤치마크 결과와 주요 설정 오류 해결 방법을 공유한다.

배경

최신 GPU인 RTX 5090을 활용해 Nemotron 모델의 추론 성능을 측정하고, vLLM 환경에서 발생한 기술적 문제와 최적화 설정을 공유하기 위해 작성되었다.

의미 / 영향

RTX 5090은 고성능 로컬 추론 환경에서 Nemotron과 같은 대형 모델을 양자화 없이도 충분히 실용적인 속도로 구동할 수 있음을 입증했다. 다만 vLLM과 같은 최신 엔진에서도 특정 아키텍처(Mamba)나 추론 기능 사용 시 세밀한 설정 최적화가 필수적이다.

커뮤니티 반응

RTX 5090의 실제 추론 성능 수치에 대해 긍정적인 반응이며, 특히 Mamba 하이브리드 모델 설정 팁이 유용하다는 평가가 많다.

실용적 조언

vLLM에서 Mamba 모델 구동 시 --mamba_ssm_cache_dtype float32 옵션을 반드시 추가하여 정확도 저하를 방지해야 한다.
추론(Reasoning) 기능을 사용할 때는 max_tokens를 1024 이상으로 설정하여 생각 토큰이 전체 할당량을 차지하지 않도록 주의해야 한다.

전문가 의견

Mamba 하이브리드 모델의 경우 TRT-LLM보다 vLLM이 구현 및 설정 측면에서 더 유리한 측면이 있어 이를 유지했다.

언급된 도구

vLLM추천

LLM 추론 및 서빙 엔진

RTX 5090추천

고성능 그래픽 카드 하드웨어

Nemotron중립

NVIDIA에서 개발한 대형 언어 모델

섹션별 상세

RTX 5090의 BF16 추론 성능 결과가 공개됐다. 양자화 없이 단일 요청 시 초당 약 83토큰, 10개 동시 요청 시 초당 약 630토큰의 처리량을 기록했다. TTFT는 45-60ms 수준이며, 32GB VRAM 중 30.6GB를 점유하여 거의 최대 용량을 사용하는 것으로 나타났다.

vLLM 0.15.1 버전의 HuggingFace 추론 파서 플러그인에서 임포트 오류가 발견됐다. 특정 버전에서 발생하는 이 버그는 블로그 포스트에 제시된 수정 방법을 통해 해결이 가능하다.

추론(Reasoning) 기능 활성화 시 max_tokens 설정의 중요성이 확인됐다. max_tokens를 1024 미만으로 설정하면 모델의 생각(Thinking) 토큰이 할당된 예산을 모두 소모하여 실제 응답 내용이 null로 반환되는 현상이 발생한다.

Mamba 하이브리드 모델의 정확도 유지 설정이 필수적이다. --mamba_ssm_cache_dtype float32 옵션을 사용하지 않을 경우 추론 결과의 정확도가 급격히 저하되는 문제가 보고됐다.

bash

--mamba_ssm_cache_dtype float32

Mamba 하이브리드 모델의 추론 정확도 저하를 방지하기 위해 필수적으로 추가해야 하는 vLLM 실행 옵션이다.

Mamba 하이브리드 모델 아키텍처를 다룰 때 TRT-LLM 대신 vLLM을 선택한 배경이 언급됐다. 이는 특정 모델 구조에 대한 엔진별 지원 수준과 최적화 편의성을 고려한 결과이다.

실무 Takeaway

RTX 5090은 Nemotron 모델을 BF16으로 구동할 때 단일 83 tok/s, 배치 630 tok/s의 높은 성능을 보여준다.
추론 모델 사용 시 max_tokens를 최소 1024 이상으로 설정해야 응답 누락을 방지할 수 있다.
Mamba 기반 모델의 정확도를 위해서는 캐시 데이터 타입을 float32로 강제 지정해야 한다.
vLLM 0.15.1 버전 사용 시 HuggingFace 파서 관련 임포트 오류를 주의해야 한다.

언급된 리소스

문서Nemotron vLLM RTX 5090 Blog Post