본문으로 건너뛰기

tensor-split

텐서 분할

고급

llama.cpp와 같은 엔진에서 여러 개의 GPU에 모델 연산을 나누어 할당하는 전략이다. 레이어 단위로 나누는 방식(-sm layer)과 행 단위로 나누는 방식(-sm row) 등이 있으며 하드웨어 구성에 따라 안정성이 달라진다.