Qwen 3.5 35B 모델 로컬 실행 및 성능 벤치마크 공유

핵심 요약

RTX 4070 Ti Super 환경에서 Qwen 3.5 35B 모델을 llama-server로 구동하며 얻은 구체적인 설정값과 성능 지표를 공유했다.

배경

사용자가 RTX 4070 Ti Super 16GB VRAM 환경에서 Qwen 3.5 35B 모델을 성공적으로 구동한 경험을 공유했다. llama-server를 이용한 구체적인 실행 옵션과 실제 추론 속도 수치를 공개하여 로컬 LLM 사용자들에게 실질적인 벤치마크 데이터를 제공했다.

의미 / 영향

이 토론에서 RTX 4070 Ti Super와 같은 중급형 GPU에서도 35B 규모의 최신 모델을 충분히 실무에 활용할 수 있음이 확인됐다. 특히 llama.cpp의 최적화 옵션을 정교하게 조정함으로써 상용 서비스에 근접한 추론 속도를 로컬에서 구현 가능하다.

커뮤니티 반응

사용자의 구체적인 벤치마크와 설정 공유에 대해 긍정적인 반응이며 특히 16GB VRAM에서의 높은 성능 수치에 주목하고 있다.

주요 논점

01찬성다수

Qwen 3.5 35B 모델은 현재 로컬 하드웨어에서 구동 가능한 가장 실용적인 모델 중 하나이다.

합의점 vs 논쟁점

합의점

Unsloth의 양자화 버전이 로컬 VRAM 제약을 극복하는 데 효과적이다.
Flash Attention 활성화가 추론 속도 향상에 필수적이다.

실용적 조언

16GB VRAM 사용자라면 Unsloth의 Q4_K_XL 양자화 버전을 사용하여 Qwen 3.5 35B를 시도할 것을 권장한다.
llama-server 실행 시 -fa on 옵션으로 Flash Attention을 반드시 활성화하여 속도를 높여야 한다.
메모리 부족 문제를 방지하기 위해 --no-mmap 및 --mlock 옵션 사용을 고려해야 한다.

전문가 의견

프롬프트 평가 속도가 1600 t/s를 넘는 것은 Flash Attention과 적절한 배치 사이즈 설정이 잘 조화된 결과이다.

언급된 도구

llama-server추천

LLM 추론 서버 구동 및 API 제공

Qwen 3.5 35B추천

메인 언어 모델

섹션별 상세

RTX 4070 Ti Super 16GB VRAM과 64GB 시스템 메모리 조합으로 Qwen 3.5 35B 모델을 구동했다. Unsloth에서 제공하는 Q4_K_XL 양자화 버전을 선택하여 16GB VRAM 환경에서도 효율적인 추론이 가능함을 입증했다. 이는 중급형 GPU 사용자들에게 고성능 모델 사용의 가능성을 제시한다.

llama-server 실행 시 --ctx-size 131072, -fa on (Flash Attention), -b 4096 등 구체적인 파라미터를 적용했다. 특히 --fit on과 --fit-target 1024 옵션을 통해 메모리 할당을 최적화하고 --no-mmap 및 --mlock을 사용하여 성능 안정성을 꾀했다. 이러한 설정은 로컬 환경에서 대규모 컨텍스트를 처리할 때의 가이드라인이 된다.

프롬프트 평가 속도는 초당 약 1634.88토큰, 실제 생성 속도는 초당 49.25토큰으로 나타났다. 이는 35B 규모의 모델임에도 불구하고 매우 쾌적한 작업 속도를 보여주는 수치이다. 사용자는 지난 몇 년간 자신의 하드웨어에서 구동한 모델 중 실질적인 업무 처리가 가능한 첫 번째 모델이라며 만족감을 표했다.

최상위 레벨에서는 파일 내용을 직접 가로채서 모델에 주입할 수 있지만 서브 에이전트 구조에서는 파일 컨텍스트를 전달하는 데 어려움이 있음을 언급했다. 모델 자체의 성능은 훌륭하지만 복잡한 에이전트 워크플로우 내에서 컨텍스트를 유지하고 관리하는 방식에 대한 기술적 고민을 공유했다.

이미지 분석

Screenshot
프롬프트 평가 속도(1634.88 t/s)와 생성 속(49.25 t/s) 등 텍스트로 언급된 벤치마크 결과의 실제 증거를 보여준다. 사용자가 적용한 llama-server의 구체적인 실행 로그를 확인할 수 있어 데이터의 신뢰도를 뒷받침한다.
Qwen 3.5 35B 모델의 추론 성능 지표가 표시된 터미널 스크린샷이다.

실무 Takeaway

RTX 4070 Ti Super(16GB VRAM) 환경에서 Qwen 3.5 35B Q4 양자화 모델이 원활하게 구동된다.
llama-server의 Flash Attention 및 배치 사이즈 최적화를 통해 초당 약 49토큰의 생성 속도를 확보할 수 있다.
대규모 컨텍스트(128k) 설정 시 메모리 고정(--mlock)과 맵핑 해제(--no-mmap)가 성능 안정성에 기여한다.
서브 에이전트 워크플로우에서 파일 컨텍스트를 효율적으로 전달하는 것은 여전히 해결해야 할 과제이다.