GPU 오프로드
모델의 연산 레이어를 CPU 대신 GPU 메모리에 할당하여 처리하는 기법으로, 할당량이 높을수록 추론 속도가 빨라진다.
RTX 3090인데 8토큰? LM Studio 성능 저하 해결하는 법
내 노트북에서 LLM 돌리기: Ollama와 LM Studio 완벽 가이드