3D 어텐션
DiT( Diffusion Transformer ) 내부에서 reference와 target의 latent 토큰이 합쳐져 수행되는 어텐션으로, 시공간 및 시점 간 정보가 레이어 단위로 교환된다. 쿼리-키 유사도로 구성되어 특정 레이어에서 시점 간 대응(correspondence)이 뚜렷하게 드러나며, 이 대응 정보가 기하학적 일관성 및 모션 보존에 직접적으로 영향을 준다.