텐서 분할
대규모 모델의 연산을 여러 개의 GPU에 나누어 할당하는 방식이다. llama.cpp의 -ts 옵션을 통해 각 GPU에 할당할 연산 비중을 수동으로 조절하여 하드웨어 자원 활용도를 최적화할 수 있다.