디퓨전 prior
비디오 diffusion transformer가 인터넷 규모의 동영상을 통해 학습한 spatio-temporal prior를 활용해 3D 포인트 매핑 및 트래킹에 활용한다.