핵심 요약
AMD Ryzen AI 9 환경에서 ik_llama.cpp가 mainline llama.cpp 대비 Qwen 3.5 모델의 프롬프트 처리 속도를 5배, 토큰 생성 속도를 1.7배 향상시킨 벤치마크 결과이다.
배경
AMD Ryzen AI 9 365 CPU 환경에서 Qwen 3.5 4B 모델을 구동하며 ik_llama.cpp와 mainline llama.cpp의 성능을 비교 테스트했다. CPU 추론 효율성을 확인하기 위해 직접 벤치마크를 수행하고 그 결과를 공유했다.
의미 / 영향
CPU 전용 추론 환경에서 엔진 선택이 하드웨어 업그레이드 이상의 성능 차이를 만든다. 특히 Qwen 3.5와 같은 최신 아키텍처 모델을 사용할 때 특정 포크의 최적화 수준이 mainline보다 월등히 높을 수 있음이 확인됐다.
커뮤니티 반응
작성자의 놀라운 벤치마크 결과에 대해 커뮤니티는 높은 관심을 보였으며, 특히 Zen 5 아키텍처와의 시너지를 긍정적으로 평가했다.
주요 논점
01찬성다수
ik_llama.cpp가 CPU 추론에서 mainline보다 월등한 성능을 보여준다.
합의점 vs 논쟁점
합의점
- ik_llama.cpp가 특정 CPU 환경에서 mainline보다 빠른 성능을 낸다.
논쟁점
- 동일한 GGUF 파일에 대해 엔진마다 파라미터 수와 파일 크기를 다르게 보고하는 이유
실용적 조언
- CPU에서 Qwen 3.5를 구동한다면 ik_llama.cpp를 우선적으로 테스트할 것
- 동일 모델 파일이라도 엔진에 따라 보고되는 정보가 다를 수 있으니 실제 t/s 수치를 기준으로 성능을 판단할 것
언급된 도구
ik_llama.cpp추천
CPU 추론 최적화 포크
llama.cpp중립
범용 LLM 추론 엔진
Qwen 3.5추천
고성능 오픈소스 언어 모델
섹션별 상세
ik_llama.cpp가 mainline llama.cpp에 비해 압도적인 성능 우위를 보였다. 구체적으로 프롬프트 처리(pp512)에서 281.56 t/s를 기록하여 mainline의 56.47 t/s보다 약 5배 빠른 속도를 나타냈다. 이는 CPU 기반 추론에서 매우 이례적인 성능 향상 폭이다.
토큰 생성(tg128) 속도 역시 ik_llama.cpp가 22.41 t/s로 mainline의 12.85 t/s 대비 약 1.7배 빠른 성능을 입증했다. 테스트는 AMD Ryzen AI 9 365(Zen 5) 10코어 환경에서 10개 스레드를 할당하여 진행됐다. 하드웨어의 잠재력을 엔진 최적화가 끌어낸 결과이다.
동일한 모델 파일(Qwen 3.5 4B IQ4_XS)을 사용했음에도 두 엔진이 보고하는 모델 크기와 파라미터 수가 다르게 나타나는 현상이 관찰됐다. ik_llama.cpp는 2.78 GiB(4.84 B), mainline은 2.30 GiB(4.21 B)로 표시되어 그 원인에 대한 의문이 제기됐다. 이는 엔진별 메타데이터 해석 방식의 차이로 추정된다.
실무 Takeaway
- CPU 기반 LLM 추론 시 ik_llama.cpp가 특정 모델(Qwen 3.5)에서 mainline 대비 비약적인 성능 향상을 제공한다.
- Zen 5 아키텍처(AMD Ryzen AI 9)에서 프롬프트 처리 속도가 최대 5배까지 차이 나는 실측 결과가 확인됐다.
- 동일 파일에 대해 엔진별로 파라미터 수와 크기 계산 방식이 다를 수 있으므로 벤치마크 시 주의가 필요하다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료