핵심 요약
RTX 3090 Ti 환경에서 Qwen 3.5 35B 모델 사용 시 설정된 컨텍스트 크기보다 낮은 11k 토큰에서 제한되는 문제와 VRAM 최적화 방안에 대한 논의이다.
배경
사용자가 RTX 3090 Ti(24GB) 환경에서 llama.cpp를 통해 Qwen 3.5 35B 모델을 구동하던 중, 설정값(32k)과 달리 컨텍스트가 11,008 토큰으로 제한되는 현상을 겪어 해결 방법과 최적화 설정을 문의했다.
의미 / 영향
이 토론은 24GB VRAM 하드웨어에서 30B급 이상의 MoE 모델을 실용적인 컨텍스트 길이로 사용하기 위한 기술적 한계와 극복 방안을 보여준다. 단순한 설정값 입력보다 하드웨어 자원 배분과 캐시 양자화의 조화가 성능의 핵심임을 시사한다.
커뮤니티 반응
사용자가 상세한 하드웨어 사양과 로그를 제공하여 구체적인 기술적 조언이 가능한 상태이다. 대체로 VRAM 한계에 따른 자동 축소 현상으로 이해하고 있으며, 최적화 설정값 변경을 권장하는 분위기이다.
실용적 조언
- KV 캐시 타입을 q8_0에서 q4_0으로 변경하여 메모리 사용량을 절반으로 줄일 것.
- 모델 레이어를 모두 GPU에 올리는 대신 --n-gpu-layers 값을 낮추어 VRAM 여유 공간을 확보할 것.
- Open WebUI의 num_ctx 설정이 llama.cpp의 --ctx-size와 일치하는지 재확인할 것.
섹션별 상세
command: >
--model /models/Qwen3.5-35B-A3B-Q4_K_M.gguf
--mmproj /models/mmproj-F16.gguf
--no-mmproj-offload
--ctx-size 32768
--n-gpu-layers 99
--n-cpu-moe 8
--parallel 1
--no-mmap
--flash-attn on
--cache-type-k q8_0
--cache-type-v q8_0
--jinja
--poll 0
--threads 8
--batch-size 2048
--fit on사용자가 설정한 llama.cpp 서버 구동을 위한 Docker Compose 실행 명령 예시


실무 Takeaway
- VRAM이 부족한 상황에서 llama.cpp는 OOM(Out of Memory) 오류를 내는 대신 가용 메모리에 맞춰 컨텍스트 크기를 자동으로 제한할 수 있다.
- 24GB VRAM에서 35B 규모의 MoE 모델을 긴 컨텍스트로 구동하려면 KV 캐시 양자화(Q4_0 등)가 필수적이다.
- 모델 레이어 전체를 GPU에 올리는 대신 일부 전문가를 CPU로 오프로딩하여 VRAM 여유 공간을 확보하는 전략이 필요하다.
언급된 도구
LLM 추론 엔진 및 서버
LLM 사용자 인터페이스(Frontend)
MoE 기반 대형 언어 모델
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.