요약 토큰
긴 시퀀스를 고정 길이 청크로 나눈 뒤 각 청크 끝에 추가되는 학습 가능한 요약 토큰이다. 이 토큰들은 청크 내부의 원시 토큰을 직접 참조하지 못하도록 마스킹되어 청크의 중요한 정보를 압축하도록 학습된다. 본 논문에서는 이 토큰들이 디코딩 시 청크 선택을 위한 라우팅 신호로도 사용되어 효율적이고 쿼리 적응적인 sparse attention을 가능하게 한다.