쿼리 토큰
컨텍스트 토큰과 예측 토큰 사이에서 주의를 수행하여 과거 프레임으로부터 유용한 정보를 선택적으로 추출하는 학습 가능한 토큰 집합으로, diffusion 과정의 각 단계와 예측 프레임마다 서로 다른 주의 분포를 학습하여 장기 기억을 지원한다.