핵심 요약
Unsloth가 iMatrix 데이터와 개선된 양자화 알고리즘을 적용하여 Qwen3.5 모델들의 KL 발산 오차를 대폭 줄인 최종 GGUF 업데이트를 발표했다.
배경
Unsloth 팀이 Qwen3.5 모델군(35B, 122B, 397B 등)의 GGUF 양자화 버전을 개선하여 배포했다. 기존보다 더 정교한 iMatrix 데이터와 MoE 모델에 최적화된 새로운 양자화 알고리즘을 적용하여 추론 품질을 높이는 것이 목적이다.
의미 / 영향
이 업데이트를 통해 로컬 환경에서 Qwen3.5 모델을 사용할 때 발생하는 양자화 손실이 최소화됐다. 특히 MoE 구조의 대형 모델에서도 높은 정밀도를 유지할 수 있는 방법론이 확인되어 향후 다른 모델의 양자화 전략에도 영향을 줄 것으로 보인다.
커뮤니티 반응
사용자들은 Unsloth의 지속적인 최적화 작업에 대해 매우 긍정적인 반응을 보였다. 특히 MoE 모델의 양자화 품질 개선 수치에 주목하며, 대형 모델인 397B 버전의 업로드를 기다리는 분위기이다.
실용적 조언
- 기존 Qwen3.5 GGUF 사용자는 성능 향상을 위해 최신 버전(Unsloth 배포본)으로 재다운로드할 것
- LM Studio 사용자는 가이드에 따라 'Thinking' 토글 기능을 활성화하여 모델의 추론 과정을 제어할 수 있음
- Unsloth 무료 노트북을 활용하여 Qwen3.5 모델을 직접 파인튜닝해볼 수 있음
섹션별 상세

코드 예제
lms get unsloth/qwen3.5-4bLM Studio에서 Unsloth의 Qwen3.5 모델을 다운로드하는 명령어
실무 Takeaway
- Qwen3.5 모델들의 GGUF 버전이 iMatrix와 새로운 알고리즘으로 대폭 업데이트되어 재다운로드가 권장된다.
- 새로운 양자화 기법은 특히 MoE 모델의 최대 오차(Max KLD)를 줄이는 데 집중하여 안정성을 높였다.
- 채팅 템플릿 수정과 F16 레이어 적용을 통해 도구 호출 정확도와 추론 속도를 동시에 개선했다.
언급된 도구
LLM 학습 및 양자화 최적화 라이브러리
로컬 LLM 실행 및 모델 관리 도구
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.