tensor-parallelism
대규모 모델의 연산을 여러 개의 GPU에 나누어 동시에 처리하는 병렬화 기법이다. 단일 GPU 메모리에 담기 힘든 거대 모델을 구동하거나 추론 속도를 높이기 위해 필수적으로 사용된다.
Meta가 공개한 RCCLX, AMD GPU 통신 속도 최대 50% 향상
70개 이상의 모델과 25종의 GPU를 지원하는 LLM 학습 비용 시뮬레이터
MIT 라이선스로 공개된 GLM-5, Modal에서 무료 API로 즉시 사용 가능
AMD MI325X와 vLLM 최적화로 추론 처리량 2배 높이고 비용은 절반으로