gpu-offloading
GPU 오프로딩
연산 부하를 CPU에서 GPU로 분산시켜 처리 효율을 극대화하는 기법이다. 로컬 LLM 구동 시 VRAM 용량에 맞춰 레이어를 할당함으로써 전체 시스템의 병목 현상을 해결하고 응답 속도를 개선한다.
GPU 오프로딩
연산 부하를 CPU에서 GPU로 분산시켜 처리 효율을 극대화하는 기법이다. 로컬 LLM 구동 시 VRAM 용량에 맞춰 레이어를 할당함으로써 전체 시스템의 병목 현상을 해결하고 응답 속도를 개선한다.