핵심 요약
Radeon 8060s 환경에서 Qwen 3.5 27B 모델 구동 시 Vulkan 백엔드의 메모리 부족 오류와 ROCm의 낮은 추론 성능 문제를 분석한다.
배경
Radeon 8060s GPU와 32GB 통합 메모리를 갖춘 시스템에서 Qwen 3.5 27B 모델을 llama.cpp로 실행하려 했으나, Vulkan 백엔드에서 OOM 오류가 발생하고 ROCm 백엔드는 기대보다 낮은 8.5 t/s의 속도를 보여 해결책을 찾고 있다.
의미 / 영향
AMD 하드웨어에서 로컬 LLM을 구동할 때 모델 크기에 따라 최적의 백엔드(ROCm vs Vulkan)가 달라질 수 있음을 시사한다. 특히 통합 메모리 환경에서는 드라이버 수준의 VRAM 할당량 설정과 실제 물리적 한계 사이의 정밀한 조정이 필수적이다.
커뮤니티 반응
사용자들은 AMD 하드웨어에서 Vulkan과 ROCm의 드라이버 안정성 차이에 주목하며, 특히 통합 메모리 환경에서의 메모리 오버헤드 문제를 지적하고 있습니다.
실용적 조언
- Vulkan OOM 문제를 해결하기 위해 컨텍스트 크기를 2048~4096 수준으로 대폭 낮추어 테스트할 것
- --no-mmap 옵션을 제거하여 OS의 가상 메모리 관리 기능을 활용해 볼 것
- 최신 AMD HIP SDK 및 드라이버 업데이트를 통해 ROCm 백엔드의 성능 최적화를 시도할 것
전문가 의견
- 통합 메모리 시스템에서는 OS와 백그라운드 프로세스가 사용하는 메모리를 제외한 실제 가용량을 엄격하게 계산해야 하며, Vulkan은 ROCm보다 메모리 할당 시 더 큰 안전 마진을 요구할 수 있다.
언급된 도구
llama.cpp추천
LLM 추론 엔진 및 서버 실행
unsloth/Qwen3.5-27B-GGUF중립
양자화된 Qwen 3.5 모델 파일 제공처
섹션별 상세
Vulkan 백엔드와 ROCm 백엔드 간의 성능 역전 현상이 보고됐다. 9B 모델에서는 Vulkan이 22 t/s로 ROCm의 18 t/s보다 빨랐으나, 27B 모델에서는 Vulkan이 모델 로드 마지막 단계에서 메모리 부족으로 크래시가 발생하는 반면 ROCm은 정상적으로 로드됐다.
llama.cpp 설정 중 컨텍스트 크기(-c 60000)와 KV 캐시 양자화(-ctk q8_0, -ctv q8_0)가 메모리 점유에 큰 영향을 미치고 있다. 사용자는 컨텍스트를 8192로 줄이고 플래그를 제거해도 Vulkan에서의 OOM 문제가 해결되지 않는다고 밝혔다.
Vulkan 백엔드 사용 시 KV 캐시 버퍼 크기가 0.00 MiB로 표시되는 이상 현상이 관찰됐다. 이는 ROCm에서 1997.50 MiB로 정상 표시되는 것과 대조적이며, 최신 llama.cpp 빌드의 버그일 가능성이 제기됐다.
통합 메모리 시스템(Unified Memory)에서의 VRAM 할당 한계 문제가 논의됐다. 32GB RAM 중 24GB를 VRAM으로 할당했음에도 불구하고, Vulkan 드라이버가 실제 가용 메모리를 관리하는 방식에서 충돌이 발생하여 'ErrorOutOfDeviceMemory'를 출력했다.
실무 Takeaway
- Radeon 8060s(32GB RAM) 환경에서 Qwen 3.5 27B Q4_K_XL 모델 구동 시 ROCm 백엔드는 약 8.5 t/s의 속도를 제공한다.
- Vulkan 백엔드는 소형 모델에서 더 높은 성능을 보이지만, 대형 모델 로드 시 메모리 관리 효율성 문제로 인해 OOM 오류가 발생할 수 있다.
- 60,000 토큰에 달하는 긴 컨텍스트 설정은 통합 메모리 환경에서 시스템 안정성을 해치는 주요 원인이 된다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료