토큰 중첩 학습
학습 초기 단계에서 연속적인 토큰 묶음을 예측하도록 모델을 수정하는 기법이다. 표준적인 다음 토큰 예측 방식보다 FLOPs 대비 2~3배 빠른 학습 속도를 제공하며 추론 시점의 아키텍처 변경이 필요 없다.