비스칼라 그래디언트
단일 숫자가 아닌 벡터나 행렬 형태의 기울기 값이다. 멀티모달 모델처럼 여러 컴포넌트가 연결된 구조에서 한 모델의 출력이 다른 모델의 입력으로 쓰일 때 필수적으로 발생하며 새로운 DeepSpeed API는 이를 공식적으로 지원한다.
DeepSpeed로 멀티모달 학습 속도 30% 향상하고 메모리 40% 절감하기