gguf
llama.cpp 프로젝트에서 도입한 모델 저장 형식으로, CPU와 GPU를 효율적으로 활용하여 로컬 환경에서 대규모 언어 모델을 실행하는 데 최적화되어 있다.
7년 전 게임 영상을 실사급으로? WAN 2.1과 Flux 리마스터링 기법
CLI는 100t/s인데 서버는 10t/s? llama.cpp 성능 저하 원인
4GB 그래픽카드로도 가능할까? CPU 중심 로컬 LLM 구축기
공식 모델보다 낫다? 초보자의 Qwen 파인튜닝 성공기
70GB 메모리의 위력? Qwen 3.5 122B로 구현한 추억의 파이프 화면 보호기