샷 쿼리
Transformer 디코더에서 각 샷의 정보를 추출하기 위해 사용되는 학습 가능한 임베딩 벡터이다. 각 쿼리는 비디오 내 특정 샷의 시간적 범위와 관계 정보를 예측하는 슬롯 역할을 수행한다.