인텔 Arc BMG G31 (Battlemage) llama.cpp 초기 벤치마크 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

인텔의 차세대 GPU Battlemage BMG G31에서 llama.cpp를 구동하여 SYCL 백엔드가 Vulkan보다 우수한 추론 성능을 보임을 확인했다.

배경

인텔의 새로운 Battlemage 아키텍처 기반 GPU인 BMG G31을 최신 리눅스 커널과 Mesa 드라이버 환경에서 llama.cpp의 다양한 백엔드로 테스트하여 초기 성능 지표를 확인했다.

의미 / 영향

인텔의 차세대 Battlemage GPU는 SYCL 백엔드를 통해 로컬 LLM 추론에서 경쟁력 있는 성능을 보여줄 가능성이 확인됐다. 다만 하드웨어의 잠재력을 완전히 끌어내기 위해서는 OpenVINO와 같은 최적화 도구의 안정성 확보와 드라이버 생태계의 성숙이 선행되어야 한다.

커뮤니티 반응

작성자가 직접 최신 하드웨어를 테스트한 결과에 대해 관심이 높으며, 특히 SYCL과 Vulkan 간의 성능 격차와 초기 드라이버의 불안정성에 대한 논의가 이루어지고 있다.

주요 논점

01중립다수

Battlemage BMG G31은 SYCL 백엔드에서 준수한 성능을 보이지만 소프트웨어 스택이 아직 불안정하다.

합의점 vs 논쟁점

합의점

SYCL이 인텔 GPU 환경에서 Vulkan보다 높은 성능을 제공한다.
현재 Battlemage를 제대로 구동하려면 최신 커널과 드라이버 수동 빌드가 필수적이다.

논쟁점

OpenVINO의 작동 여부와 특정 런타임 버전에서의 안정성 차이

실용적 조언

인텔 GPU에서 llama.cpp를 사용한다면 Vulkan보다는 SYCL 백엔드를 우선적으로 고려해야 성능 이득을 볼 수 있다.
Battlemage 하드웨어를 테스트하려면 리눅스 커널 6.19.8 이상의 최신 환경과 Xe 펌웨어 업데이트가 필요하다.

섹션별 상세

SYCL 백엔드에서 Qwen 3.5 27B Q4_K 모델을 구동했을 때 프롬프트 처리(pp512) 속도는 798.07 t/s, 토큰 생성(tg128) 속도는 15.64 t/s를 기록했다. 인텔의 oneAPI 런타임을 활용한 이 방식은 현재 Battlemage 하드웨어에서 가장 높은 효율을 보여주는 추론 경로이다. 수치상으로 대형 모델임에도 불구하고 실사용 가능한 수준의 생성 속도를 확보했다.

bash

build/bin/llama-bench -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL -p 512,16384 -n 128,512

SYCL 백엔드를 사용하여 Qwen 3.5 27B 모델의 성능을 측정하는 벤치마크 명령어

Vulkan 백엔드 테스트 결과 프롬프트 처리 속도는 504.19 t/s로 SYCL 대비 약 37% 낮은 성능을 보였으며 토큰 생성 속도 역시 14.10 t/s로 측정됐다. 최신 Mesa 드라이버를 소스에서 빌드하여 적용했음에도 불구하고 전용 런타임인 SYCL에 비해 최적화가 부족한 상태임이 확인됐다. 이는 범용 API인 Vulkan이 하드웨어 특화 기능을 완전히 활용하지 못하고 있음을 시사한다.

text

ggml_vulkan: Found 1 Vulkan devices: ggml_vulkan: 0 = Intel(R) Graphics (BMG G31) (Intel open-source Mesa driver)
| uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 49152 | int dot: 1 | matrix cores: NV_coopmat2

Vulkan 백엔드에서 인식된 Intel Arc BMG G31(Battlemage) 하드웨어 정보

OpenVINO 2026.0 버전을 통한 GPU 가속 시도는 텐서 할당 및 메모리 버퍼 복사 오류(CPY 연산 불가)로 인해 프로그램이 중단되는 결과를 낳았다. 작성자는 이전에 작동했던 경험이 있다고 언급했으나 현재 드라이버와 런타임의 조합에서는 안정성 문제가 발생했다. 이는 차세대 하드웨어 지원을 위한 소프트웨어 스택이 아직 초기 단계에 머물러 있음을 보여준다.

text

GGML_OPENVINO_DEVICE=GPU GGML_OPENVINO_STATEFUL_EXECUTION=1 build_ov/bin/llama-bench -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL -p OpenVINO: using device GPU
// ...(중략)
Aborted

OpenVINO 백엔드 실행 시 발생한 텐서 할당 오류 및 중단 로그

테스트 환경 구축을 위해 커널 6.19.8, Debian 13, 최신 Xe 펌웨어 및 Mesa 드라이버를 직접 빌드하여 적용하는 과정이 수반됐다. 하드웨어가 공식 출시 전이거나 초기 단계인 만큼 표준 배포판의 드라이버로는 정상 작동이 어려우며 최신 개발용 런타임이 필수적이다. 작성자는 현재의 상태를 '겨우 작동하기 직전의 경계'라고 표현하며 소프트웨어 생태계의 성숙이 필요함을 언급했다.

실무 Takeaway

인텔 Battlemage BMG G31 GPU에서 llama.cpp 구동 시 SYCL 백엔드가 Vulkan보다 프롬프트 처리 속도 면에서 약 1.5배 이상 우수한 성능을 보였다.
Qwen 3.5 27B 모델 기준 약 15.6 t/s의 토큰 생성 속도를 기록하여 차세대 인텔 GPU의 로컬 LLM 추론 잠재력을 확인했다.
최신 하드웨어를 활용하기 위해서는 커널 6.19.8 이상과 최신 Mesa 드라이버 소스 빌드 등 실험적인 소프트웨어 환경 설정이 요구된다.
OpenVINO 등 일부 최적화 툴킷은 아직 Battlemage 아키텍처에서 메모리 관리 오류 등 안정성 문제를 겪고 있다.

언급된 도구

llama.cpp추천

LLM 추론 엔진

OpenVINO중립

인텔 하드웨어 최적화 추론 툴킷

Mesa추천

오픈소스 그래픽 드라이버 스택