RTX 5060 Ti (Blackwell)에서 vLLM으로 AWQ 모델 실행하기: awq_marlin과 TRITON_ATTN이 핵심

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

NVIDIA Blackwell 아키텍처 기반 RTX 5060 Ti에서 vLLM을 사용해 AWQ 양자화 모델을 안정적으로 구동하기 위한 특정 플래그 설정 방법과 벤치마크 결과를 공유한다.

배경

새로운 Blackwell 아키텍처(SM_120)를 사용하는 RTX 5060 Ti GPU에서 기존 AWQ 양자화 모델이 작동하지 않는 문제를 해결하기 위해, 시행착오 끝에 발견한 vLLM 설정 최적화 조합을 공유했다.

의미 / 영향

이 토론은 Blackwell 아키텍처 초기 단계에서 발생하는 하드웨어-소프트웨어 간 불일치 문제를 vLLM의 유연한 백엔드 설정을 통해 해결할 수 있음을 입증했다. 향후 RTX 50 시리즈 보급에 따라 Marlin 커널과 Triton 어텐션의 조합이 Blackwell 기반 로컬 LLM 구동의 표준 설정이 될 가능성이 높다.

커뮤니티 반응

최신 하드웨어인 RTX 50 시리즈 사용자들에게 실질적인 해결책을 제시하여 긍정적인 반응을 얻었으며, 특히 문서화되지 않은 Blackwell 특이 사항을 정리했다는 점이 높게 평가받았다.

실용적 조언

vLLM 실행 시 반드시 --quantization awq_marlin과 --attention-backend TRITON_ATTN 플래그를 조합하여 사용할 것
Gemma 2 모델 사용 시 'System role not supported' 에러가 발생하면 시스템 프롬프트 필드를 완전히 비울 것
Windows 환경이라면 WSL2(Ubuntu)와 최신 버전의 vLLM 개발 빌드를 사용하는 것이 권장됨

언급된 도구

vLLM추천

고성능 LLM 추론 및 서빙 엔진

Chatbox중립

vLLM API와 연동하여 사용하는 데스크톱용 LLM UI 프론트엔드

섹션별 상세

Blackwell 아키텍처(SM_120)는 연산 시 bfloat16 사용을 강제하는 특성이 있어, float16을 요구하는 표준 AWQ 방식 사용 시 pydantic ValidationError와 함께 시스템이 즉시 충돌한다.

bash

vllm serve \
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.90 \
--max-model-len 4096 \
--quantization awq_marlin \
--attention-backend TRITON_ATTN

RTX 5060 Ti에서 AWQ 모델을 안정적으로 실행하기 위한 vLLM 서버 구동 명령어

현재 널리 쓰이는 FlashAttention 라이브러리가 아직 SM_120 아키텍처를 공식적으로 지원하지 않기 때문에, vLLM 실행 시 --attention-backend TRITON_ATTN 플래그를 사용하여 Triton 기반 백엔드로 우회해야 정상 작동한다.

양자화 옵션으로 --quantization awq_marlin을 설정하는 것이 핵심이며, 이를 통해 Blackwell GPU에서도 AWQ 모델을 안정적으로 로드하고 추론할 수 있음이 확인됐다.

Llama 3.1 8B(338ms), Mistral Nemo 12B(437ms), Qwen 2.5 14B(520ms) 등 다양한 모델을 대상으로 테스트한 결과, 모델 크기가 커질수록 첫 토큰 지연 시간이 선형적으로 증가하며 안정적인 성능을 보였다.

Gemma 2 모델의 경우 AWQ 로딩은 성공했으나 모델 자체의 템플릿 제한으로 인해 시스템 역할을 지원하지 않으므로, 프론트엔드 설정 시 시스템 프롬프트를 비워두어야 에러를 방지할 수 있다.

실무 Takeaway

RTX 5060 Ti(Blackwell) 환경에서 AWQ 모델 구동을 위해서는 awq_marlin 양자화 옵션과 TRITON_ATTN 백엔드 설정이 필수적이다.
표준 AWQ, GPTQ, BitsAndBytes는 현재 Blackwell 아키텍처에서 충돌하거나 비정상적인 출력을 생성하여 사용이 불가능하다.
vLLM 0.17.2rc1 버전과 PyTorch 2.10.0+cu130 환경의 WSL2에서 8B~14B 규모 모델의 안정적인 구동이 검증됐다.

언급된 리소스

문서Meta-Llama-3.1-8B-Instruct-AWQ-INT4 (Hugging Face)

문서Qwen2.5-14B-Instruct-AWQ (Hugging Face)