GPU 레이어
모델의 신경망 레이어 중 GPU 메모리에 할당하여 연산하는 층의 개수를 의미한다. VRAM 용량에 맞춰 적절한 레이어 수를 설정하는 것이 로컬 추론 속도 최적화의 핵심이다.