TL;DR
vLLM 포크를 사용하여 AMD 하드웨어에서 Qwen 3.5 27B와 Gemma 4 31B의 추론 처리량 및 지연 시간을 비교 분석한 벤치마크 결과이다.
배경
AMD gfx906 하드웨어 환경에서 최신 모델인 Qwen 3.5 27B와 Gemma 4 31B의 추론 성능을 비교하기 위해 vLLM 포크 버전을 사용하여 벤치마크를 수행했다.
의미 / 영향
AMD 하드웨어 환경에서도 vLLM 최적화와 MTP 아키텍처를 통해 30B급 모델의 실용적인 추론 속도 확보가 가능함이 확인됐다. 단순 토큰 생성 속도(TPS)보다 사고 토큰을 포함한 전체 응답 품질과 에이전트 성능이 실무적 모델 선택의 중요한 기준이 된다.
커뮤니티 반응
작성자가 직접 수행한 벤치마크 결과에 대해 구체적인 수치와 실행 환경이 공유되어 신뢰도가 높다는 반응이다.
주요 논점
Qwen 3.5가 MTP 아키텍처 덕분에 추론 효율과 에이전트 성능 면에서 Gemma 4보다 우수하다.
단순 토큰 속도보다는 사고 토큰을 포함한 전체 응답 품질을 고려해야 한다.
합의점 vs 논쟁점
합의점
- Qwen 3.5의 MTP 5 설정이 추론 속도 향상에 매우 효과적이다.
- AMD GPU 환경에서도 적절한 vLLM 최적화를 통해 높은 성능을 낼 수 있다.
논쟁점
- 사고 토큰 생성량이 전체 추론 효율에 미치는 실질적인 영향력에 대한 해석 차이
실용적 조언
- AMD GPU 사용자라면 FLASH_ATTENTION_TRITON_AMD_ENABLE 옵션을 활성화하여 성능을 개선할 수 있다.
- Qwen 3.5 서빙 시 speculative-config를 통해 MTP 기능을 활성화하면 처리량을 극대화할 수 있다.
섹션별 상세
docker run -it --name vllm-gfx906-mobydick -v ~/llm/models:/models --network host --device=/dev/kfd --device=/dev/dri --group-add video --group-add $(getent group render | cut -d: -f3) --ipc=host aiinfos/vllm-gfx906-mobydick:latest FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" OMP_NUM_THREADS=4 VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/models/Qwen3.5-27B-AWQ \
--served-model-name Qwen3.5-27B-AWQ \
--dtype float16 \
--enable-log-requests \
--enable-log-outputs \
--log-error-stack \
--max-model-len auto \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":5}' \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 --skip-mm-profiling \
--tensor-parallel-size 4 \
--host 0.0.0.0 \
--port 8000 2>&1 | tee log.txtAMD GPU 환경에서 Qwen 3.5 27B AWQ 모델을 MTP 설정과 함께 서빙하기 위한 Docker 실행 명령어
언급된 도구
LLM 추론 및 서빙 엔진
대규모 언어 모델
대규모 언어 모델
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.