GGML
머신러닝을 위한 텐서 라이브러리로, 특히 소비자용 하드웨어에서 대규모 언어 모델을 효율적으로 실행할 수 있도록 설계된 C 기반 프레임워크다. 양자화 기술을 통해 모델 크기를 줄이고 CPU 및 GPU 자원을 최적으로 활용하여 로컬 추론 성능을 극대화한다.
llama.cpp가 Hugging Face에 합류했다: 로컬 AI 생태계의 대변화
llama.cpp 개발팀이 Hugging Face에 합류한 이유와 미래
로컬 AI의 혁명! llama.cpp와 Hugging Face가 만났다