시퀀스 패킹
여러 개의 짧은 시퀀스를 하나의 긴 시퀀스로 묶어 고정된 컨텍스트 윈도우를 최대한 채우는 기법이다. 주로 디코더 전용 모델에서 패딩 토큰으로 인한 계산 낭비를 줄이고 학습 효율을 높이는 데 사용된다.