분산 추론
단일 GPU 메모리에 담기지 않는 대규모 모델을 여러 GPU에 나누어 실행하는 기술이다. 모델 병렬화 기법을 사용하여 추론 속도를 높이거나 거대 모델 구동을 가능하게 한다.