Qwen 3.5 27B vs 35B Unsloth 양자화 모델 LiveCodeBench 벤치마크 결과

핵심 요약

RTX 4060 Ti 환경에서 Qwen 3.5 27B 모델이 더 큰 35B 모델보다 코딩 벤치마크에서 약 3.2배 높은 성능을 기록했다.

배경

RTX 4060 Ti 16GB 환경에서 Qwen 3.5 27B와 35B 모델의 코딩 성능을 LiveCodeBench로 비교 측정했다. 윈도우 환경에서의 호환성 문제를 해결하기 위해 코드를 수정하고 다양한 양자화 설정을 적용하여 실험을 수행했다.

의미 / 영향

로컬 LLM 환경에서 모델의 크기가 성능과 비례하지 않음이 확인됐다. 특히 코딩 도메인에서는 하위 파라미터 모델이 상위 모델보다 최신 데이터 대응 능력이 뛰어날 수 있으므로 실제 벤치마크 기반의 모델 선택이 중요하다.

커뮤니티 반응

사용자들은 더 작은 모델인 27B가 35B를 큰 차이로 이긴 결과에 주목하며 양자화 효율성에 놀라움을 표했다.

실용적 조언

로컬 환경에서 코딩 보조용 LLM을 선택한다면 35B보다는 27B 모델을 우선적으로 고려하는 것이 유리하다.
윈도우 환경에서 LiveCodeBench를 실행하려면 제공된 패치 코드를 적용하여 호환성 문제를 해결해야 한다.

언급된 도구

LiveCodeBench추천링크

코딩 성능 평가 벤치마크 도구

Unsloth추천

LLM 양자화 및 최적화 라이브러리

llama.cpp추천

로컬 LLM 추론 엔진

섹션별 상세

27B 모델의 압도적 성능 우위: Qwen 3.5 27B 모델은 IQ3_XXS 양자화 버전임에도 불구하고 더 높은 정밀도인 IQ4_XS를 적용한 35B 모델을 모든 지표에서 앞섰다. 전체 평균 점수에서 27B는 34.8%를 기록한 반면 35B는 11.0%에 그쳐 약 3.2배의 격차를 보였다. 특히 중간 난이도 문제 해결에서 27B가 35B보다 6배 가량 높은 성과를 내며 효율성이 확인됐다.

최신 데이터셋에서의 35B 모델 결함: 2025년 4월에서 5월 사이의 최신 코딩 문제들을 대상으로 한 테스트에서 35B 모델은 0%의 정답률을 기록하며 완전히 실패했다. 반면 27B 모델은 동일한 조건에서 25.0%의 점수를 유지하며 안정적인 성능을 기록했다. 파라미터 수가 훨씬 적은 9B 모델이 16.7%를 기록한 것과 비교하면 35B 모델의 최신 데이터 처리 능력에 심각한 문제가 있음이 드러났다.

성능 개선을 위한 다양한 시도와 결과: 작성자는 35B 모델의 부진을 해결하기 위해 Q5_K_XL 고정밀 양자화 모델을 사용하거나 컨텍스트 길이를 150k까지 늘리는 등 여러 설정을 변경하며 추가 테스트를 진행했다. 사고 모드(Thinking mode)를 끄거나 KV 캐시 설정을 변경하는 시도도 있었으나 최신 문제 세트에서의 0% 정답률은 변하지 않았다. 이는 35B 모델의 특정 아키텍처나 학습 데이터 구성이 최신 코딩 트렌드와 맞지 않을 가능성이 크다.

실무 Takeaway

Qwen 3.5 27B 모델이 35B 모델보다 코딩 작업에서 월등히 우수한 가성비와 성능을 제공한다.
모델의 파라미터 크기가 반드시 실제 작업 성능과 직결되지 않음을 보여주는 실증적 사례이다.
35B 모델은 2025년 이후의 최신 코딩 문제에 대해 신뢰도가 매우 낮은 것으로 나타났다.

언급된 리소스

GitHubLiveCodeBench GitHub

문서Windows Compatibility Patch