시각 쿼리 교차 어텐션
queries가 로컬 시각적 콘텐츠를 기반으로 동작하도록, discrete action을 per-pixel로 매핑하는 cross-attention 프로세스이다.