문맥 병렬화
매우 긴 텍스트 시퀀스를 여러 GPU에 나누어 병렬로 처리하는 기술이다. 통신 오버헤드를 줄이면서 메모리 한계를 극복하여 수십만 토큰 이상의 긴 문맥을 효율적으로 학습할 수 있게 한다.