시퀀스 병렬 처리
매우 긴 텍스트 데이터를 처리할 때 시퀀스 차원을 여러 GPU에 나누어 계산하는 기법이다. 메모리 부족 문제를 해결하고 긴 컨텍스트를 가진 모델의 학습 속도를 높이는 데 필수적이다.