교차 모달 어텐션
텍스트 쿼리와 이미지/비디오 토큰 간의 상관관계를 계산하는 메커니즘이다. 특정 텍스트 질문에 대해 비디오의 어떤 시각적 영역이 중요한지 수치화하여 핵심 토큰을 선택하는 근거로 활용된다.