핵심 요약
RTX 3090 3대 환경에서 Qwen 3.5 35B MoE 모델은 초당 93토큰의 높은 성능을 보였으나 27B 모델은 실행 중 크래시가 발생했다.
배경
NVIDIA RTX 3090 3대를 보유한 사용자가 최신 Qwen 3.5 모델들의 GGUF 버전을 직접 구동하여 추론 성능을 측정하고 안정성을 테스트했다.
의미 / 영향
이 테스트를 통해 Qwen 3.5 MoE 아키텍처가 로컬 다중 GPU 환경에서 매우 높은 성능 잠재력을 가졌음이 확인됐다. 다만 특정 모델 라인업의 안정성 문제가 존재하므로 실무 적용 전 빌드 호환성 검증이 필수적이다.
커뮤니티 반응
사용자들은 35B MoE 모델의 높은 성능에 긍정적인 반응을 보였으며, 27B 모델의 크래시 현상에 대해서는 빌드 업데이트나 양자화 방식의 문제일 수 있다는 의견이 제기됐다.
합의점 vs 논쟁점
합의점
- RTX 3090 3대 환경은 35B 규모의 MoE 모델을 Q8 양자화로 구동하기에 충분한 VRAM을 제공한다.
- Qwen 3.5 35B MoE의 추론 효율성은 기존 밀집(Dense) 모델 대비 뛰어나다.
논쟁점
- 27B 모델의 크래시 원인이 모델 자체의 결함인지, 아니면 llama.cpp 특정 빌드의 버그인지에 대해 확인이 필요하다.
실용적 조언
- Qwen 3.5 35B MoE 모델을 다중 GPU에서 구동할 경우 Q8_0 양자화로도 충분히 빠른 속도를 얻을 수 있다.
- 27B 모델을 사용하려는 경우 현재 보고된 크래시 이슈를 고려하여 최신 llama.cpp 빌드로 업데이트하거나 다른 양자화 버전을 시도해야 한다.
섹션별 상세
Qwen 3.5 35B MoE 모델의 구체적인 성능 수치가 공개됐다. RTX 3090 3대 환경에서 Q8_0 양자화 버전을 사용했을 때, 프롬프트 처리(pp512) 속도는 1324.37 t/s, 텍스트 생성(tg128) 속도는 93.20 t/s로 측정됐다. 이는 MoE 아키텍처가 다중 GPU 환경에서 매우 효율적으로 작동함을 입증한다.
Qwen 3.5 27B 모델의 경우 심각한 안정성 결함이 발견됐다. llama-bench 실행 시 즉시 크래시가 발생하며, llama-server를 통한 구동 시도에서도 초기화 직후 시스템이 종료되는 현상이 반복됐다. 테스트에 사용된 특정 빌드(da426cb25)와의 호환성 문제일 가능성이 크다.
하드웨어 및 소프트웨어 설정 환경이 상세히 공유됐다. CUDA 백엔드를 사용하고 모든 레이어를 GPU에 오프로딩(ngl 99)한 상태에서 테스트가 진행됐다. 사용된 하드웨어는 Compute Capability 8.6을 지원하는 RTX 3090 3대이며 VMM(Virtual Memory Management) 기능이 활성화된 상태이다.
실무 Takeaway
- Qwen 3.5 35B MoE 모델은 RTX 3090 3대 조합에서 실사용에 충분한 초당 90토큰 이상의 생성 속도를 제공한다.
- 현재 Qwen 3.5 27B GGUF 모델은 특정 llama.cpp 빌드에서 구동이 불가능한 안정성 문제가 존재한다.
- MoE(Mixture of Experts) 구조는 파라미터 규모 대비 추론 속도 면에서 상당한 이점을 가진다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료