혼합 추론
GPU의 VRAM과 시스템 RAM을 동시에 사용하여 모델을 실행하는 방식으로, VRAM 용량이 부족한 환경에서 대형 모델을 돌릴 때 필수적이다.
GLM-5 추론 모드, 왜 특정 llama.cpp 버전에서만 안 될까?