llama-cpp
C/C++로 작성된 효율적인 LLM 추론 프레임워크이다. Apple Silicon의 가속 기능이나 일반 CPU의 AVX 명령어를 활용하여 고성능 GPU 없이도 모델을 빠르게 실행할 수 있게 해준다.
7년 전 갤럭시 S10E에서 AI가? 초소형 Qwen 모델의 놀라운 성능
llama.cpp가 Hugging Face에 합류했다: 로컬 AI 생태계의 대변화
내 금융 데이터는 내 컴퓨터에만, 로컬 LLM으로 분류하는 가계부 Ledgr
로컬 AI의 혁명! llama.cpp와 Hugging Face가 만났다
내 컴퓨터에서 LLM 실행하기: FP16 모델을 GGUF로 양자화하는 실전 가이드