VulkanForge: AMD RDNA 4를 위한 Rust 기반 Vulkan LLM 추론 엔진

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

VulkanForge는 AMD RDNA 4(gfx1201) 하드웨어에 최적화된 Rust 기반의 Vulkan 전용 LLM 추론 엔진이다. 그래픽 큐나 스왑체인 없이 오직 연산(Compute) 기능에만 집중하며, ash 라이브러리를 사용하여 Vulkan 1.3 환경에서 직접 구축되었다. 특히 v0.3.4 버전에서는 업계 최초로 Vulkan 환경에서 FP8 LLM의 엔드투엔드 실행을 지원하여 Llama-3.1-8B 모델을 16GB VRAM 환경에서 효율적으로 구동한다. 비동기 파이프라인 디코딩과 협력 행렬(Cooperative Matrix) 기술을 통해 기존 llama.cpp 대비 경쟁력 있는 성능을 확보했다.

배경

Rust 프로그래밍 언어 및 Cargo 빌드 시스템, Vulkan 1.3 지원 드라이버 (Mesa 26.0 이상 권장), AMD RDNA 4 (gfx1201) 이상 하드웨어

대상 독자

AMD GPU 환경에서 고성능 LLM 추론 시스템을 구축하려는 Rust 개발자 및 MLOps 엔지니어

의미 / 영향

VulkanForge는 특정 벤더 종속적인 기술(CUDA/ROCm) 대신 표준 Vulkan API를 활용하여 최신 하드웨어 가속 성능을 끌어낼 수 있음을 증명했다. 특히 FP8 네이티브 지원은 소비자용 하드웨어에서 대규모 언어 모델의 접근성을 크게 높이는 계기가 될 것이다.

섹션별 상세

AMD RDNA 4 아키텍처의 AI 가속기를 활용하기 위해 VK_KHR_cooperative_matrix를 적극적으로 도입했다. Q4_K 및 Q6_K GEMM 연산을 RDNA 4의 128개 AI 가속기로 분산 처리하며, 타일 크기에 따른 런타임 셀렉터를 통해 최적의 파이프라인을 선택한다. 이를 통해 프리필(Prefill) 단계에서 llama.cpp의 90% 수준에 달하는 성능을 구현했다.

업계 최초로 VK_EXT_shader_float8을 통한 네이티브 FP8 E4M3 KV 캐시를 지원한다. 기존 FP16 대비 캐시 메모리 점유율을 50% 절감하면서도 디코딩 속도를 1~4% 향상시키는 성과를 거두었다. 15개의 벤치마크 프롬프트 테스트 결과 FP16과 동일한 수준의 출력 일관성을 유지함이 확인됐다.

CPU의 커맨드 기록과 GPU의 연산을 병렬로 처리하는 3단계 비동기 파이프라인 디코딩 루프를 구현했다. GPU가 현재 토큰을 계산하는 동안 CPU는 다음 토큰을 위한 커맨드 버퍼를 미리 기록하여 대기 시간을 숨긴다. 이 최적화를 통해 이전 버전 대비 디코딩 성능이 약 19.3% 향상되어 초당 100토큰 이상의 처리량을 달성했다.

SafeTensors 형식의 FP8 모델을 FP16이나 BF16으로 변환하지 않고 네이티브 상태 그대로 로드하여 실행한다. Meta-Llama-3.1-8B-Instruct-FP8 모델 기준 GPU 메모리 점유율을 7.48 GiB로 억제하며 초당 68.5토큰의 디코딩 속도를 기록했다. 이는 16GB VRAM을 가진 소비자용 GPU에서 14B급 모델까지 구동할 수 있는 기반을 마련한 것이다.

실무 Takeaway

AMD RDNA 4 GPU 사용자라면 VulkanForge를 통해 llama.cpp 대비 최대 6% 향상된 디코딩 성능과 50% 절감된 KV 캐시 메모리 효율을 얻을 수 있다.
VULKANFORGE_KV_FP8=1 설정을 활성화하면 품질 저하 없이 VRAM 사용량을 획기적으로 줄여 더 긴 컨텍스트를 처리할 수 있다.
별도의 외부 의존성 없이 약 10MB 크기의 단일 바이너리로 배포 가능하여 Rust 기반 AI 애플리케이션에 통합하기 용이하다.

언급된 리소스

GitHubVulkanForge GitHub Repository