Qwen 3.5 27B vs Gemma 4 31B: vLLM 기반 AMD 하드웨어 추론 성능 비교

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

vLLM 포크를 사용하여 AMD 하드웨어에서 Qwen 3.5 27B와 Gemma 4 31B의 추론 처리량 및 지연 시간을 비교 분석한 벤치마크 결과이다.

배경

AMD gfx906 하드웨어 환경에서 최신 모델인 Qwen 3.5 27B와 Gemma 4 31B의 추론 성능을 비교하기 위해 vLLM 포크 버전을 사용하여 벤치마크를 수행했다.

의미 / 영향

AMD 하드웨어 환경에서도 vLLM 최적화와 MTP 아키텍처를 통해 30B급 모델의 실용적인 추론 속도 확보가 가능함이 확인됐다. 단순 토큰 생성 속도(TPS)보다 사고 토큰을 포함한 전체 응답 품질과 에이전트 성능이 실무적 모델 선택의 중요한 기준이 된다.

커뮤니티 반응

작성자가 직접 수행한 벤치마크 결과에 대해 구체적인 수치와 실행 환경이 공유되어 신뢰도가 높다는 반응이다.

주요 논점

01찬성다수

Qwen 3.5가 MTP 아키텍처 덕분에 추론 효율과 에이전트 성능 면에서 Gemma 4보다 우수하다.

02중립소수

단순 토큰 속도보다는 사고 토큰을 포함한 전체 응답 품질을 고려해야 한다.

합의점 vs 논쟁점

합의점

Qwen 3.5의 MTP 5 설정이 추론 속도 향상에 매우 효과적이다.
AMD GPU 환경에서도 적절한 vLLM 최적화를 통해 높은 성능을 낼 수 있다.

논쟁점

사고 토큰 생성량이 전체 추론 효율에 미치는 실질적인 영향력에 대한 해석 차이

실용적 조언

AMD GPU 사용자라면 FLASH_ATTENTION_TRITON_AMD_ENABLE 옵션을 활성화하여 성능을 개선할 수 있다.
Qwen 3.5 서빙 시 speculative-config를 통해 MTP 기능을 활성화하면 처리량을 극대화할 수 있다.

섹션별 상세

Qwen 3.5 27B AWQ 모델은 vLLM 환경에서 초당 39.08개의 출력 토큰 처리량을 달성했다. MTP(Multi-Token Prediction) 5 설정을 통해 89.7%의 높은 투기적 디코딩 수락률을 기록하며 추론 효율을 극대화했다. 벤치마크 결과 평균 TTFT는 24.7초, TPOT는 49.2ms로 측정되어 전반적으로 빠른 응답성을 보였다. 이는 모델 아키텍처와 양자화 방식의 조합이 성능 향상에 기여한 결과이다.

bash

docker run -it --name vllm-gfx906-mobydick -v ~/llm/models:/models --network host --device=/dev/kfd --device=/dev/dri --group-add video --group-add $(getent group render | cut -d: -f3) --ipc=host aiinfos/vllm-gfx906-mobydick:latest FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" OMP_NUM_THREADS=4 VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/models/Qwen3.5-27B-AWQ \
--served-model-name Qwen3.5-27B-AWQ \
--dtype float16 \
--enable-log-requests \
--enable-log-outputs \
--log-error-stack \
--max-model-len auto \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":5}' \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 --skip-mm-profiling \
--tensor-parallel-size 4 \
--host 0.0.0.0 \
--port 8000 2>&1 | tee log.txt

AMD GPU 환경에서 Qwen 3.5 27B AWQ 모델을 MTP 설정과 함께 서빙하기 위한 Docker 실행 명령어

Gemma 4 31B it AWQ 모델은 동일한 환경에서 초당 18.77개의 출력 토큰 처리량을 기록했다. Qwen 3.5와 비교했을 때 평균 TTFT가 42.8초로 약 73% 더 길게 나타났으며, TPOT 또한 127.2ms로 상대적으로 느린 추론 속도를 보였다. 4비트 AWQ 양자화를 적용했음에도 불구하고 모델 크기와 아키텍처 차이로 인해 처리량 면에서 한계를 드러냈다.

Qwen 3.5는 MTP 아키텍처 덕분에 Gemma 4보다 수치상 속도 우위를 점했다. 하지만 Qwen 3.5는 Gemma 4보다 더 많은 '사고 토큰(thinking tokens)'을 생성하는 특성이 있어 전체 응답 완료 시간은 사용 사례에 따라 더 길어질 가능성이 존재한다. 실제 에이전트 활용 사례(Agentic use cases)에서는 Qwen 3.5가 Gemma 4보다 약간 더 나은 성능을 보인다는 실무적 평가가 제시됐다.

AMD gfx906 하드웨어에서 vLLM 포크 버전을 사용하여 Docker 컨테이너 기반의 추론 환경을 구축했다. FLASH_ATTENTION_TRITON_AMD_ENABLE 옵션을 활성화하여 AMD GPU에서의 연산 효율을 높였으며, 텐서 병렬화(Tensor Parallel) 크기를 모델에 따라 2 또는 4로 설정했다. 이러한 설정은 로컬 환경에서 대규모 언어 모델을 효율적으로 서빙하기 위한 구체적인 재현 경로를 제공한다.

언급된 도구

vLLM추천

LLM 추론 및 서빙 엔진

Qwen 3.5 27B추천

대규모 언어 모델

Gemma 4 31B중립