역전파
신경망 학습 시 출력층에서 입력층 방향으로 오차 그래디언트를 전달하여 가중치를 업데이트하는 핵심 과정이다. 이 아티클에서는 비스칼라 텐서에 대한 역전파 지원이 주요 업데이트로 다뤄지며 이를 통해 복잡한 멀티모달 모델의 학습 루프를 PyTorch 순정 코드처럼 간결하게 구현할 수 있게 된다.
INT8 양자화로 사전 학습 성능 격차 해소, SageBwd의 진화
DeepSpeed로 멀티모달 학습 속도 30% 향상하고 메모리 40% 절감하기