4D 상관 볼륨
쿼리·키 특징의 지역적 유사도(로컬 윈도우)를 정리한 텐서로, 시간·공간·뷰 축을 포함한다. q와 k를 Δ-이내의 이웃에서 샘플링해 softmax로 정규화하고 tracking head의 입력으로 사용하여 시공간 매칭을 추정한다.