핵심 요약
Unsloth가 iMatrix 데이터와 개선된 양자화 알고리즘을 적용하여 Qwen3.5 모델들의 KL 발산 오차를 대폭 줄인 최종 GGUF 업데이트를 발표했다.
배경
Unsloth 팀이 Qwen3.5 모델군(35B, 122B, 397B 등)의 GGUF 양자화 버전을 개선하여 배포했다. 기존보다 더 정교한 iMatrix 데이터와 MoE 모델에 최적화된 새로운 양자화 알고리즘을 적용하여 추론 품질을 높이는 것이 목적이다.
의미 / 영향
이 업데이트를 통해 로컬 환경에서 Qwen3.5 모델을 사용할 때 발생하는 양자화 손실이 최소화됐다. 특히 MoE 구조의 대형 모델에서도 높은 정밀도를 유지할 수 있는 방법론이 확인되어 향후 다른 모델의 양자화 전략에도 영향을 줄 것으로 보인다.
커뮤니티 반응
사용자들은 Unsloth의 지속적인 최적화 작업에 대해 매우 긍정적인 반응을 보였다. 특히 MoE 모델의 양자화 품질 개선 수치에 주목하며, 대형 모델인 397B 버전의 업로드를 기다리는 분위기이다.
실용적 조언
- 기존 Qwen3.5 GGUF 사용자는 성능 향상을 위해 최신 버전(Unsloth 배포본)으로 재다운로드할 것
- LM Studio 사용자는 가이드에 따라 'Thinking' 토글 기능을 활성화하여 모델의 추론 과정을 제어할 수 있음
- Unsloth 무료 노트북을 활용하여 Qwen3.5 모델을 직접 파인튜닝해볼 수 있음
언급된 도구
Unsloth추천
LLM 학습 및 양자화 최적화 라이브러리
LM Studio추천
로컬 LLM 실행 및 모델 관리 도구
섹션별 상세
Unsloth는 Qwen3.5 MoE 모델의 최대 KL 발산(Maximum KLD)을 직접적으로 줄이기 위해 양자화 방식을 개선했다. 특히 UD-Q4_K_XL 버전의 경우 파일 크기는 8% 증가했으나 최대 KLD는 51%나 감소하는 성과를 거두었다. 이는 양자화 과정에서 발생하는 극단적인 오차(outliers)를 효과적으로 억제했음을 의미한다.

모든 GGUF 파일에 새로운 iMatrix 캘리브레이션 데이터셋이 적용됐다. 이 데이터셋은 채팅, 코딩, 긴 문맥 처리, 도구 호출(tool-calling) 시나리오에 맞춰 수동으로 튜닝되었으며, 이를 통해 실제 사용 환경에서의 추론 품질이 향상될 것으로 기대된다.
하드웨어 호환성과 속도 개선을 위해 BF16 레이어를 F16으로 교체했다. 이는 BF16을 지원하지 않는 기기에서 더 빠른 추론 속도를 제공하기 위한 조치이다. 또한 LM Studio에서 Qwen3.5 모델의 'Thinking' 기능을 토글할 수 있는 지원이 추가되어 사용자 편의성이 증대됐다.
실무 Takeaway
- Qwen3.5 모델들의 GGUF 버전이 iMatrix와 새로운 알고리즘으로 대폭 업데이트되어 재다운로드가 권장된다.
- 새로운 양자화 기법은 특히 MoE 모델의 최대 오차(Max KLD)를 줄이는 데 집중하여 안정성을 높였다.
- 채팅 템플릿 수정과 F16 레이어 적용을 통해 도구 호출 정확도와 추론 속도를 동시에 개선했다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료