선택적 펼침
쿼리가 모든 청크의 gist 토큰과만 먼저 상호작용하여 relevance score를 계산하고, 상위 k개의 청크에 대해서만 해당 청크의 원시 토큰들을 다시 주의 컨텍스트에 재도입하는 절차이다. 이 절차는 디코딩 시에만 수행되어 전체 KV 캐시를 매번 읽는 비용을 회피한다. 본 논문에서는 학습 단계에서 gist 토큰을 통해 압축을 유도하면 확률적이거나 외부 인덱서 없이도 이 방법이 효과적임이 확인되었다.