Qwen 3.5 35B MoE 모델의 실행 속도 차이: LM Studio(16 tok/s) vs llama.cpp(40 tok/s)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Qwen 3.5 35B MoE 모델 실행 시 LM Studio와 순수 llama.cpp 간에 발생하는 약 2.5배의 성능 격차 원인을 분석하고 최적화 방안을 논의합니다.

배경

사용자가 RTX 5070 Ti 환경에서 최신 Qwen 3.5 35B MoE 모델을 테스트하던 중, GUI 도구인 LM Studio와 CLI 기반인 llama.cpp 간의 현격한 성능 차이를 발견하고 그 원인을 묻기 위해 작성되었습니다.

의미 / 영향

이 토론은 로컬 LLM 사용자들에게 GUI 도구의 한계를 인식시키고 성능 최적화를 위해 CLI 도구 활용의 중요성을 강조합니다. 특히 MoE와 같은 복잡한 모델 아키텍처가 등장함에 따라 추론 엔진의 최신성 유지가 성능의 핵심 요소가 되고 있음을 시사합니다.

커뮤니티 반응

사용자들이 발견한 성능 격차에 대해 놀라움을 표하며 GUI 도구의 편의성과 성능 사이의 트레이드오프에 대해 활발히 논의하고 있습니다.

주요 논점

01중립다수

LM Studio의 설정 최적화가 부족하거나 내부 llama.cpp 버전이 구형일 가능성이 크므로 직접 실행이 유리합니다.

실용적 조언

최상의 성능을 원한다면 LM Studio 대신 llama.cpp의 llama-server를 직접 실행하여 API 형태로 연결해 사용하는 것이 좋습니다.

언급된 도구

LM Studio중립

로컬 LLM 실행 GUI 도구

llama.cpp추천

LLM 추론 엔진 및 서버

섹션별 상세

MoE 모델 추론 시 발생하는 GUI 오버헤드 문제입니다. LM Studio와 같은 GUI 도구는 사용자 편의성을 제공하지만 내부적으로 llama.cpp를 래핑하는 과정에서 추가적인 자원 소모나 비효율적인 설정이 발생할 수 있다는 점이 지적되었습니다. 특히 MoE(Mixture of Experts) 구조의 복잡성이 이러한 성능 차이를 극대화할 가능성이 큽니다.

llama.cpp의 최신 최적화 반영 속도 차이입니다. 순수 llama.cpp는 커뮤니티의 최신 패치와 최적화 기법이 즉각적으로 반영되는 반면 이를 활용하는 서드파티 앱들은 업데이트 주기가 늦어 최신 모델 아키텍처에 최적화된 성능을 내지 못할 수 있습니다. 사용자는 unsloth에서 제공하는 특정 GGUF 버전을 사용하여 터미널에서 직접 실행했을 때 훨씬 높은 효율을 경험했습니다.

컨텍스트 윈도우 및 하드웨어 가속 설정의 영향입니다. 사용자가 공유한 llama-server 명령어를 보면 65,536 토큰의 긴 컨텍스트를 설정했음에도 40 tok/s라는 높은 속도를 기록했습니다. LM Studio의 기본 설정이 GPU 레이어 오프로딩이나 KV 캐시 관리 측면에서 터미널 실행만큼 정교하게 제어되지 않았을 가능성이 제기되었습니다.

이미지 분석

Screenshot
로그를 통해 27,576 토큰의 프롬프트 처리 속도와 40.64 tok/s의 생성 속도를 확인할 수 있습니다. 이는 사용자가 주장하는 llama.cpp의 압도적인 성능 우위를 증명하는 핵심적인 수치적 근거로 활용됩니다.
llama.cpp 터미널 실행 시의 추론 성능 로그 스크린샷입니다.

실무 Takeaway

Qwen 3.5 35B MoE 모델 실행 시 LM Studio보다 순수 llama.cpp가 약 2.5배 더 빠른 성능을 보였습니다.
RTX 5070 Ti(16GB)와 96GB RAM 환경에서 llama.cpp를 통한 직접 실행은 40 tok/s의 높은 효율을 기록했습니다.
최신 MoE 아키텍처 모델을 사용할 때는 GUI 도구의 업데이트 상태와 내부 설정을 면밀히 확인해야 합니다.

언급된 리소스

GitHubunsloth/Qwen3.5-35B-A3B-GGUF