Query-Former
여러 입력 뷰의 이미지 토큰에서 3D 쿼리에 대해 geometry-aware cross-attention을 수행하는 모듈로, 서로 다른 시점의 정보를 하나의 canonical 표현으로 결합하는 역할을 한다.