GLM-5 모델의 추론 모드가 ik_llama.cpp에서 작동하지 않는 문제

핵심 요약

GLM-5 모델 사용 시 표준 llama.cpp와 달리 특정 최적화 빌드인 ik_llama.cpp에서 추론(Reasoning) 기능이 활성화되지 않는 설정 불일치 문제를 분석한다.

배경

사용자가 Deepseek R1 모델은 문제없이 사용했으나, GLM-5 모델로 전환하면서 ik_llama.cpp 환경에서만 추론 모드가 작동하지 않는 현상을 발견하여 설정을 공유하고 도움을 요청했다.

커뮤니티 반응

사용자가 상세한 CLI 명령어와 환경 설정을 공유하여 기술적인 분석이 가능한 상태이며, 특정 최적화 플래그의 영향에 대한 논의가 예상된다.

언급된 도구

llama.cpp추천링크

LLM 추론 엔진

ik_llama.cpp중립

최적화된 LLM 추론 엔진 빌드

섹션별 상세

사용자는 동일한 GLM-5 GGUF 모델 파일을 사용하여 표준 llama.cpp와 ik_llama.cpp의 실행 결과를 비교했다. 표준 llama.cpp 서버 실행 시에는 모델의 추론 과정이 정상적으로 출력되지만, 특정 최적화 옵션이 포함된 ik_llama.cpp 실행 시에는 해당 기능이 누락되는 현상이 발생했다. 사용자는 Deepseek R1 모델에서는 두 환경 모두 정상 작동했음을 언급하며 모델별 지원 차이를 의심했다. 특히 동일한 GGUF 파일을 사용했음에도 엔진에 따라 결과가 다르다는 점이 핵심이다.

ik_llama.cpp 실행 명령어에는 -mla 2, -amb 512, -ot exps=CPU 등 표준 llama.cpp에는 없는 추가적인 최적화 파라미터들이 포함되어 있다. 특히 -ngl 99 옵션을 통해 GPU 가속을 시도하고 있으며, CPU 오프로딩 설정이 추론 모드 활성화에 영향을 미치고 있을 가능성이 제기됐다. 이러한 설정들이 GLM-5의 특수한 토큰 생성 로직을 방해하는지 확인이 필요하다. 사용자는 CUDA 가속 설정인 CUDA_VISIBLE_DEVICES 값의 차이도 함께 명시하여 환경 변수 영향 가능성도 열어두었다.

사용자는 GLM-5 모델의 추론 결과가 비추론 모드보다 훨씬 뛰어나다는 점을 강조하며 해결책을 구하고 있다. 현재 ik_llama.cpp가 GLM-5 모델을 완전히 지원하지 않는 것인지, 아니면 특정 파라미터 조합의 문제인지에 대해 커뮤니티의 기술적 조언을 요청하는 상태이다. 사용자는 추론 모드 유무에 따른 성능 차이가 상당하다고 덧붙이며 문제 해결의 시급성을 나타냈다.

실무 Takeaway

GLM-5 모델의 추론(Reasoning) 기능은 표준 llama.cpp 서버 환경에서 정상적으로 작동함을 확인했다.
ik_llama.cpp와 같은 특정 최적화 빌드에서는 추가적인 파라미터 설정에 따라 모델의 특수 기능이 비활성화될 수 있다.
Deepseek R1과 GLM-5는 추론 모드 구현 방식이 다르므로 특정 추론 엔진에서의 지원 여부를 개별적으로 점검해야 한다.