GPU 레이어 할당 수
모델의 전체 레이어 중 GPU(VRAM)로 오프로드하여 연산할 레이어의 개수를 지정하는 파라미터이다. 이 수치가 높을수록 GPU 활용도가 높아져 추론 속도가 빨라진다.