핵심 요약
RTX 4070 Ti Super 환경에서 Qwen 3.5 35B 모델을 llama-server로 구동하며 얻은 구체적인 설정값과 성능 지표를 공유했다.
배경
사용자가 RTX 4070 Ti Super 16GB VRAM 환경에서 Qwen 3.5 35B 모델을 성공적으로 구동한 경험을 공유했다. llama-server를 이용한 구체적인 실행 옵션과 실제 추론 속도 수치를 공개하여 로컬 LLM 사용자들에게 실질적인 벤치마크 데이터를 제공했다.
의미 / 영향
이 토론에서 RTX 4070 Ti Super와 같은 중급형 GPU에서도 35B 규모의 최신 모델을 충분히 실무에 활용할 수 있음이 확인됐다. 특히 llama.cpp의 최적화 옵션을 정교하게 조정함으로써 상용 서비스에 근접한 추론 속도를 로컬에서 구현 가능하다.
커뮤니티 반응
사용자의 구체적인 벤치마크와 설정 공유에 대해 긍정적인 반응이며 특히 16GB VRAM에서의 높은 성능 수치에 주목하고 있다.
주요 논점
Qwen 3.5 35B 모델은 현재 로컬 하드웨어에서 구동 가능한 가장 실용적인 모델 중 하나이다.
합의점 vs 논쟁점
합의점
- Unsloth의 양자화 버전이 로컬 VRAM 제약을 극복하는 데 효과적이다.
- Flash Attention 활성화가 추론 속도 향상에 필수적이다.
실용적 조언
- 16GB VRAM 사용자라면 Unsloth의 Q4_K_XL 양자화 버전을 사용하여 Qwen 3.5 35B를 시도할 것을 권장한다.
- llama-server 실행 시 -fa on 옵션으로 Flash Attention을 반드시 활성화하여 속도를 높여야 한다.
- 메모리 부족 문제를 방지하기 위해 --no-mmap 및 --mlock 옵션 사용을 고려해야 한다.
전문가 의견
- 프롬프트 평가 속도가 1600 t/s를 넘는 것은 Flash Attention과 적절한 배치 사이즈 설정이 잘 조화된 결과이다.
언급된 도구
LLM 추론 서버 구동 및 API 제공
메인 언어 모델
섹션별 상세
이미지 분석

프롬프트 평가 속도(1634.88 t/s)와 생성 속(49.25 t/s) 등 텍스트로 언급된 벤치마크 결과의 실제 증거를 보여준다. 사용자가 적용한 llama-server의 구체적인 실행 로그를 확인할 수 있어 데이터의 신뢰도를 뒷받침한다.
Qwen 3.5 35B 모델의 추론 성능 지표가 표시된 터미널 스크린샷이다.
실무 Takeaway
- RTX 4070 Ti Super(16GB VRAM) 환경에서 Qwen 3.5 35B Q4 양자화 모델이 원활하게 구동된다.
- llama-server의 Flash Attention 및 배치 사이즈 최적화를 통해 초당 약 49토큰의 생성 속도를 확보할 수 있다.
- 대규모 컨텍스트(128k) 설정 시 메모리 고정(--mlock)과 맵핑 해제(--no-mmap)가 성능 안정성에 기여한다.
- 서브 에이전트 워크플로우에서 파일 컨텍스트를 효율적으로 전달하는 것은 여전히 해결해야 할 과제이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료