llama.cpp
C/C++로 작성된 효율적인 LLM 추론 프레임워크이다. Apple Silicon의 가속 기능이나 일반 CPU의 AVX 명령어를 활용하여 고성능 GPU 없이도 모델을 빠르게 실행할 수 있게 해준다.