iGPU vs NPU: 긴 컨텍스트 환경에서의 llama.cpp와 lemonade 성능 비교

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Ryzen AI 9 HX370 환경에서 NPU는 긴 컨텍스트의 초기 응답(TTFT)에서 압도적이나, 생성 속도(TPS)는 iGPU 기반 llama.cpp가 우세하다.

배경

Ryzen AI 9 HX370 프로세서의 NPU와 iGPU 성능을 비교하기 위해 llama.cpp(Vulkan)와 lemonade(NPU/Hybrid) 프레임워크를 사용하여 긴 컨텍스트 환경에서의 추론 속도를 벤치마킹한 결과가 공유됐다.

의미 / 영향

이 토론을 통해 로컬 LLM 환경에서 NPU의 역할이 단순 생성 가속보다는 긴 컨텍스트의 Prefill 단계 최적화에 있음이 확인됐다. RAG와 같이 입력 데이터가 많은 실무 환경에서는 NPU 지원 프레임워크를 도입하는 것이 사용자 경험 측면에서 유리하다.

커뮤니티 반응

NPU의 실질적인 활용 가능성에 대해 긍정적인 반응이며, 특히 RAG 워크플로우에서의 TTFT 개선 효과에 주목하고 있습니다.

주요 논점

01찬성다수

NPU는 긴 컨텍스트 Prefill 단계에서 iGPU보다 압도적인 효율성을 제공하므로 RAG에 필수적이다.

02중립다수

생성 속도(TPS)는 여전히 iGPU가 빠르므로 사용 목적에 따라 하드웨어 선택이 달라져야 한다.

합의점 vs 논쟁점

합의점

NPU/하이브리드 모드는 대규모 컨텍스트 입력 시 첫 토큰 생성 시간을 획기적으로 줄여준다.
llama.cpp Vulkan 백엔드는 현재 텍스트 생성 속도 최적화 면에서 가장 앞서 있다.

논쟁점

양자화 방식(W4A16 vs Q4_K_M)의 차이로 인해 두 백엔드 간의 완벽한 일대일 비교는 어렵다.
OnnxRuntime GenAI의 커널 최적화 수준이 llama.cpp에 비해 아직 부족하다는 평가가 있다.

실용적 조언

RAG처럼 긴 문서를 자주 입력하는 워크로드라면 NPU 가속을 지원하는 lemonade나 OnnxRuntime 기반 도구를 사용하세요.
iGPU에서 긴 컨텍스트를 처리할 때 TTFT가 너무 느리다면 양자화 비트를 무조건 낮추기보다 Q8 수준에서 테스트해보는 것이 유리할 수 있습니다.

섹션별 상세

NPU와 iGPU의 TTFT 성능 차이가 긴 컨텍스트에서 극명하게 나타났다. 약 18,000 토큰의 입력을 처리할 때 lemonade 하이브리드 모드는 Qwen3 4B 모델 기준 4.5초의 TTFT를 기록하며 llama.cpp Vulkan(66~67초) 대비 약 15배 빠른 속도를 보였다. 이는 대규모 문서를 반복적으로 주입하는 RAG 워크플로우에서 NPU가 초기 대기 시간을 획기적으로 줄여줌을 의미한다.

bash

$exe -m $model `
  --prio 2 `
  -c 24576 `
  -t 4 `
  -ngl 99 `
  -b 1024 `
  -ub 1024 `
  -fa on `
  -kvo `
  --reasoning auto

Vulkan 백엔드를 사용하는 llama.cpp 서버의 실행 설정값이다.

텍스트 생성 속도인 TPS 측면에서는 llama.cpp Vulkan 백엔드가 여전히 우위를 점했다. lfm 1.2B 모델 테스트에서 llama.cpp(Q4_K_M)는 73.8 TPS를 달성했으나 NPU는 37.0 TPS에 그쳐 약 2배의 성능 차이가 확인됐다. 실시간 대화나 창의적 글쓰기처럼 빠른 문장 생성이 중요한 작업에는 iGPU 최적화가 더 적합하다는 결론에 도달했다.

양자화 수준에 따른 TTFT의 역설적 현상이 관찰됐다. lfm 1.2B 모델에서 Q4_K_M 양자화 버전이 Q8_0보다 오히려 TTFT가 느리게 측정되는 결과가 나왔다. 이는 iGPU의 연산 성능이 병목인 상황에서 압축된 가중치를 복원하는 역양자화(Dequantization) 오버헤드가 메모리 대역폭 절감 효과를 상쇄했기 때문으로 분석됐다.

프레임워크 간의 커널 최적화 성숙도가 전체 성능에 큰 영향을 미쳤다. llama.cpp의 Vulkan 커널은 고도로 최적화되어 높은 TPS를 유지하는 반면, OnnxRuntime GenAI 기반의 lemonade는 상대적으로 최적화가 부족하여 하이브리드 모드임에도 생성 속도가 낮게 나타났다. 또한 lemonade가 사용하는 특정 양자화 방식(W4A16 추정)에 따른 모델 크기 차이도 성능 변수로 작용했다.

코드 예제

bash

xrt-smi examine --report platform
// Platform Name : NPU Strix
// Power Mode : Turbo
// Total Columns : 8

Ryzen AI 9 HX370 시스템에서 NPU 상태 및 플랫폼 정보를 확인하는 명령이다.

실무 Takeaway

긴 컨텍스트를 사용하는 RAG 작업에서는 NPU/하이브리드 모드가 TTFT를 최대 15배 단축시켜 초기 응답성을 크게 개선한다.
단순 텍스트 생성 속도(TPS)가 중요한 챗봇 서비스에는 고도로 최적화된 llama.cpp Vulkan 백엔드를 사용하는 것이 효율적이다.
iGPU 환경의 긴 컨텍스트 Prefill 단계에서는 모델 크기 감소보다 역양자화 연산 부하가 더 큰 병목이 될 수 있음을 고려해야 한다.

언급된 도구

llama.cpp추천

Vulkan 백엔드를 통한 iGPU 가속 LLM 추론 엔진

lemonade추천

OnnxRuntime GenAI를 활용한 NPU+iGPU 하이브리드 추론 도구

OnnxRuntime GenAI중립

NPU 및 다양한 하드웨어 가속을 지원하는 추론 라이브러리