ExLlamaV3, Qwen 3.5 공식 지원 및 주요 업데이트 발표

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

ExLlamaV3 v0.0.23 업데이트를 통해 Qwen 3.5 모델군과 Step-3.5-Flash 지원이 추가되었으며, 35B 모델의 성능 벤치마크 결과가 공개되었다.

배경

ExLlamaV3의 최신 버전인 v0.0.23에서 Qwen 3.5 아키텍처를 공식 지원하게 됨에 따라, 관련 모델들의 양자화 버전 배포와 성능 지표를 공유하기 위해 작성되었다.

의미 / 영향

ExLlamaV3의 업데이트로 인해 최신 고성능 모델인 Qwen 3.5를 일반 사용자급 하드웨어에서도 매우 빠른 속도로 구동할 수 있는 환경이 마련되었다. 이는 로컬 LLM 생태계에서 고효율 양자화 모델의 실용성이 더욱 증대되고 있음을 의미한다.

커뮤니티 반응

대체로 긍정적이며, 특히 Qwen 3.5 모델의 빠른 추론 속도와 다양한 양자화 버전 제공에 대해 높은 관심을 보이고 있다.

실용적 조언

Qwen 3.5 모델을 로컬에서 고속으로 추론하려면 ExLlamaV3 v0.0.23 이상 버전을 사용할 것.
메모리 효율을 극대화하려면 제공된 4.00 bpw 수준의 양자화 모델을 활용할 것.

언급된 도구

ExLlamaV3추천

로컬 LLM 고속 추론 엔진

tabbyAPI중립

LLM 서빙 API

SillyTavern중립

LLM 사용자 인터페이스

섹션별 상세

ExLlamaV3 v0.0.23 버전에서 Qwen 3.5 모델 아키텍처에 대한 공식 지원이 시작되었다. 이에 따라 Qwen3.5-35B-A3B, 27B, 122B-A10B 등 다양한 파라미터 규모의 모델들을 ExLlamaV3 환경에서 구동할 수 있게 되었다.

공개된 성능 지표에 따르면 Qwen3.5-35B-A3B 모델(4.00 bpw 양자화 기준)은 Prefill 단계에서 최대 5227 tokens/s, Generation 단계에서 약 140 tokens/s 내외의 높은 추론 속도를 기록했다. 이는 로컬 환경에서의 효율적인 대규모 언어 모델 운용 가능성을 시사한다.

Qwen3.5-35B-A3B 모델의 ExLlamaV3 성능 벤치마크 결과 스크린샷이다. — Chart4.05 bpw 양자화 설정에서 컨텍스트 길이에 따른 Prefill 및 Generation 속도를 보여준다. 컨텍스트가 길어질수록 Prefill 속도가 5000 tokens/s 이상으로 증가하며, 생성 속도는 140 tokens/s 수준을 안정적으로 유지함을 확인할 수 있다.

다양한 bpw 양자화 수준에 따른 catBench 결과 비교 이미지이다. — Infographic2.00 bpw부터 FP16까지 각 양자화 단계에서 생성된 고양이 이미지의 품질을 시각적으로 비교한다. 비트 수가 낮아질수록 이미지의 세부 묘사가 뭉개지거나 형태가 단순화되는 과정을 통해 양자화가 모델 성능에 미치는 영향을 직관적으로 보여준다.

Qwen 시리즈 외에도 Step-3.5-Flash 모델에 대한 지원이 추가되었으며, DeepSeek 등 다른 최신 아키텍처에 대한 풀 리퀘스트(PR) 테스트도 진행 중이다. 개발팀은 tabbyAPI 및 SillyTavern과의 통합 지원을 위해 커뮤니티의 기여를 요청하고 있다.

실무 Takeaway

ExLlamaV3 v0.0.23에서 Qwen 3.5 및 Step-3.5-Flash 모델 공식 지원.
Qwen3.5-35B 모델의 4.00 bpw 양자화 버전에서 매우 빠른 추론 성능 확인.
DeepSeek 등 추가 아키텍처 지원을 위한 테스트 및 커뮤니티 협업 진행 중.

언급된 리소스

GitHubQwen3.5-35B-A3B-exl3 Hugging Face

GitHubStep-3.5-Flash-exl3 Hugging Face