llama.cpp에서 SWA 모델의 VRAM 사용량을 3배 줄이는 최적화 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

llama.cpp에서 `-np 1` 옵션을 사용하여 SWA(Sliding Window Attention) 모델의 KV 캐시 VRAM 점유율을 최대 3배까지 절감하는 방법.

배경

작성자는 Gemma 4와 같은 SWA 적용 모델을 llama.cpp에서 실행할 때 발생하는 과도한 VRAM 점유 문제를 해결하기 위해 `-np 1` 파라미터 설정을 제안했다.

의미 / 영향

llama.cpp의 기본 설정이 다중 사용자 환경을 가정하고 있어 단일 사용자에게는 VRAM 낭비가 심하다는 점이 확인됐다. SWA 모델 사용 시 파라미터 튜닝만으로도 추가적인 양자화 없이 상당한 메모리 여유를 확보하여 더 큰 모델이나 긴 컨텍스트를 수용할 수 있다.

커뮤니티 반응

작성자의 구체적인 수치 제시와 해결책에 대해 긍정적인 반응이며, 특히 저사양 GPU 사용자들 사이에서 실질적인 도움이 된다는 평가이다.

주요 논점

01찬성다수

단일 사용자 환경에서는 병렬 슬롯을 최소화하는 것이 VRAM 효율성 확보를 위한 가장 효과적인 방법이다.

합의점 vs 논쟁점

합의점

SWA 모델의 VRAM 문제는 양자화보다 병렬 슬롯 수(-np)와 배치 크기(-ub) 설정에 더 큰 영향을 받는다.
최신 llama.cpp 빌드를 사용하는 것이 버그로 인한 추가 메모리 누수를 방지하는 기본 전제이다.

실용적 조언

단일 채팅 용도로 사용한다면 실행 명령어에 반드시 `-np 1`을 포함하세요.
VRAM이 부족하다면 속도 향상을 위한 `-ub 4096` 설정을 지양하고 기본값 512를 사용하세요.
31B급 모델을 16GB GPU에서 쓰려면 IQ3 또는 Q3_K 양자화와 함께 mmproj 로드를 최소화하세요.

섹션별 상세

SWA KV 캐시의 VRAM 점유 문제로 인해 모델 생성 전부터 대량의 메모리가 소모된다. SWA 캐시는 일반 KV 캐시와 달리 F16 정밀도로 고정 할당되며 양자화가 적용되지 않아 16GB VRAM 환경에서 빈번한 OOM을 유발한다. 최근 llama.cpp의 특정 업데이트가 이 문제를 악화시켰으나 현재는 수정되었으므로 최신 빌드 사용이 필수적이다.

병렬 시퀀스 설정인 `-np` 옵션이 SWA 캐시 크기에 직접적인 영향을 미친다. SWA 캐시 크기는 슬라이딩 윈도우 크기에 병렬 슬롯 수를 곱한 값에 비례하므로, 기본값인 4개 슬롯을 사용하면 단일 사용자 환경에서도 불필요하게 3배의 메모리를 소모한다. 26B 모델 기준 `-np 1` 설정 시 SWA 캐시가 900MB에서 300MB로 줄어들며, 31B 모델은 3.2GB에서 1.2GB로 즉각적인 절감 효과가 나타났다.

bash

./llama-cli -m gemma-4-31b.gguf -np 1 -ub 512

단일 사용자 환경에서 SWA 캐시 VRAM을 최적화하여 실행하는 명령어 예시

마이크로 배치 크기인 `-ub` 값을 과도하게 높게 설정하는 행위가 VRAM 팽창의 원인이 된다. 속도 향상을 위해 배치 크기를 4096 등으로 설정하면 SWA 버퍼가 비대해져 전체 메모리 가용성을 압박하게 된다. 16GB 환경에서 31B 모델을 구동하려면 `-ub` 값을 기본값인 512로 유지하고, 필요시 비전 모델(mmproj) 비중을 줄여야 30K 이상의 컨텍스트를 확보할 수 있다.

실무 Takeaway

단일 사용자 환경에서 llama.cpp 실행 시 `-np 1` 옵션을 추가하여 SWA 캐시 메모리 점유율을 최대 70% 가까이 절감할 수 있다.
SWA KV 캐시는 양자화 설정과 무관하게 F16으로 고정 할당되므로 병렬 슬롯 수 조절이 VRAM 관리의 핵심이다.
속도 최적화를 위한 `-ub` 값 증가는 SWA 버퍼를 비대하게 만드므로 메모리 제약 환경에서는 기본값 512 유지가 권장된다.

언급된 도구

llama.cpp추천링크

LLM 추론 및 서빙 엔진

언급된 리소스

GitHubllama.cpp SWA 캐시 관련 수정 PR