핵심 요약
Qwen 3.5 35B MoE 모델 실행 시 LM Studio와 순수 llama.cpp 간에 발생하는 약 2.5배의 성능 격차 원인을 분석하고 최적화 방안을 논의합니다.
배경
사용자가 RTX 5070 Ti 환경에서 최신 Qwen 3.5 35B MoE 모델을 테스트하던 중, GUI 도구인 LM Studio와 CLI 기반인 llama.cpp 간의 현격한 성능 차이를 발견하고 그 원인을 묻기 위해 작성되었습니다.
의미 / 영향
이 토론은 로컬 LLM 사용자들에게 GUI 도구의 한계를 인식시키고 성능 최적화를 위해 CLI 도구 활용의 중요성을 강조합니다. 특히 MoE와 같은 복잡한 모델 아키텍처가 등장함에 따라 추론 엔진의 최신성 유지가 성능의 핵심 요소가 되고 있음을 시사합니다.
커뮤니티 반응
사용자들이 발견한 성능 격차에 대해 놀라움을 표하며 GUI 도구의 편의성과 성능 사이의 트레이드오프에 대해 활발히 논의하고 있습니다.
주요 논점
LM Studio의 설정 최적화가 부족하거나 내부 llama.cpp 버전이 구형일 가능성이 크므로 직접 실행이 유리합니다.
실용적 조언
- 최상의 성능을 원한다면 LM Studio 대신 llama.cpp의 llama-server를 직접 실행하여 API 형태로 연결해 사용하는 것이 좋습니다.
언급된 도구
로컬 LLM 실행 GUI 도구
LLM 추론 엔진 및 서버
섹션별 상세
이미지 분석

로그를 통해 27,576 토큰의 프롬프트 처리 속도와 40.64 tok/s의 생성 속도를 확인할 수 있습니다. 이는 사용자가 주장하는 llama.cpp의 압도적인 성능 우위를 증명하는 핵심적인 수치적 근거로 활용됩니다.
llama.cpp 터미널 실행 시의 추론 성능 로그 스크린샷입니다.
실무 Takeaway
- Qwen 3.5 35B MoE 모델 실행 시 LM Studio보다 순수 llama.cpp가 약 2.5배 더 빠른 성능을 보였습니다.
- RTX 5070 Ti(16GB)와 96GB RAM 환경에서 llama.cpp를 통한 직접 실행은 40 tok/s의 높은 효율을 기록했습니다.
- 최신 MoE 아키텍처 모델을 사용할 때는 GUI 도구의 업데이트 상태와 내부 설정을 면밀히 확인해야 합니다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.