tensor-split
텐서 분할
llama.cpp와 같은 엔진에서 여러 개의 GPU에 모델 연산을 나누어 할당하는 전략이다. 레이어 단위로 나누는 방식(-sm layer)과 행 단위로 나누는 방식(-sm row) 등이 있으며 하드웨어 구성에 따라 안정성이 달라진다.
텐서 분할
llama.cpp와 같은 엔진에서 여러 개의 GPU에 모델 연산을 나누어 할당하는 전략이다. 레이어 단위로 나누는 방식(-sm layer)과 행 단위로 나누는 방식(-sm row) 등이 있으며 하드웨어 구성에 따라 안정성이 달라진다.