핵심 요약
RTX 3090 환경에서 LM Studio의 기본 설정 오류로 인한 Qwen 3.5 추론 속도 저하 문제를 GPU 오프로드 설정을 통해 해결하고 최적의 설정을 공유한다.
배경
RTX 3090 사용자가 LM Studio에서 Qwen 3.5 모델을 실행할 때 기대치인 30-60 tok/s보다 훨씬 낮은 4-8 tok/s가 나오는 문제를 발견하고 원인을 분석하여 해결책을 게시했다.
의미 / 영향
LM Studio의 기본 설정이 직관적이지 않아 고성능 하드웨어에서도 성능 저하가 발생할 수 있음을 시사한다. 로컬 LLM 사용자들은 도구별 최적화 설정과 하드웨어 가속 여부를 면밀히 체크해야 하며, 편의성과 성능 사이의 트레이드오프를 고려해야 한다.
커뮤니티 반응
사용자는 스스로 문제를 해결하고 설정을 공유했으며, LM Studio의 비직관적인 기본 설정에 대해 의구심을 표했다.
주요 논점
01중립다수
LM Studio의 편의 기능은 좋으나 추론 성능 최적화가 미흡하여 고성능 하드웨어 사용자에게는 부적합할 수 있다.
합의점 vs 논쟁점
합의점
- LM Studio에서 GPU 오프로드 설정은 반드시 수동으로 확인해야 한다.
- Qwen 3.5 모델은 추론 시 토큰 소모량이 많아 높은 추론 속도가 필수적이다.
논쟁점
- LM Studio가 왜 VRAM 로드와 CPU 추론을 기본 조합으로 설정해 두었는지에 대한 의문이 제기되었다.
실용적 조언
- LM Studio에서 모델 로드 후 반드시 'GPU Offload' 설정을 확인하고 수동으로 활성화할 것
- 성능이 최우선이라면 Kobold나 다른 경량 추론 엔진 사용을 고려할 것
언급된 도구
LM Studio중립
로컬 LLM 실행 및 RAG 지원 도구
Kobold추천
LLM 추론 프론트엔드
섹션별 상세
RTX 3090 환경에서 Qwen 3.5 35B 및 27B GGUF 모델을 LM Studio로 실행했을 때 초기 속도가 4-8 tok/s에 불과했다. 사용자는 ECC RAM의 속도 문제나 모델 양자화 수준을 의심했으나, 동일한 모델을 다른 프론트엔드인 Kobold에서 실행했을 때는 정상 속도가 나오는 것을 확인하여 소프트웨어 설정 문제임을 인지했다.
문제의 근본 원인은 LM Studio의 기본 설정에 있었다. 모델을 VRAM에 로드하도록 구성되어 있음에도 불구하고, 실제 추론 연산은 CPU를 사용하도록 기본값이 설정되어 있었다. 이를 해결하기 위해 모델 구성 패널에서 'GPU Offload' 옵션을 수동으로 활성화해야 한다.
설정 수정 후 35B Q5 모델에서 약 10.54 tok/s의 속도를 확보했으나, 이는 여전히 RTX 2080 수준의 성능에 불과하여 하드웨어 잠재력을 완전히 끌어내지 못한 결과다. 사용자는 LM Studio가 제공하는 RAG 기능과 샌드박스 폴더 접근 권한을 유지하기 위해 이러한 성능 손실을 감수하고 있다.


Qwen 3.5 모델은 추론 과정에서 '생각(Thinking)' 단계에 많은 토큰을 소모하며, 추론 속도가 느릴 경우 사용자 경험이 매우 저하된다. 특히 모델이 스스로 질문을 반복하는 현상이 발생할 때 낮은 토큰 속도는 치명적이며, 컨텍스트 길이는 속도 변화에 큰 영향을 주지 않는 것으로 나타났다.
실무 Takeaway
- LM Studio 사용 시 모델이 VRAM에 로드되어 있더라도 GPU 오프로드 설정이 수동으로 활성화되지 않으면 CPU 추론을 수행하여 성능이 급감한다.
- RTX 3090에서 Qwen 3.5 35B Q5 모델 사용 시 최적화 설정을 적용해도 약 10.54 tok/s 수준의 속도가 한계일 수 있다.
- LM Studio는 RAG나 보안 기능 면에서 장점이 있지만, 순수 추론 속도 최적화 면에서는 Kobold 등 다른 프론트엔드에 비해 부족할 수 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료