TL;DR
단일 프레임 단위로 생성하는 frame-anchored 비디오 DiT의 한계를 극복하고, 참조 프레임에 고정된 트래킹 포인트를 따라가며 3D 모션을 추출한다. TrackCraft3R은 dual-latent representation과 temporal RoPE alignment를 통해 비디오 DiT의 시공간 priors를 밀집 3D 트래킹으로 직접 이용한다.
왜 중요한가
단일 프레임 단위로 생성하는 frame-anchored 비디오 DiT의 한계를 극복하고, 참조 프레임에 고정된 트래킹 포인트를 따라가며 3D 모션을 추출한다. TrackCraft3R은 dual-latent representation과 temporal RoPE alignment를 통해 비디오 DiT의 시공간 priors를 밀집 3D 트래킹으로 직접 이용한다.
핵심 기여
TrackCraft3R: 첫 영상 diffusion transformer의 feed-forward dense 3D tracker로의 재활용
비디오 DiT를 기반으로 frame-anchored outputs 대신 reference-anchored 트래킹 포맷을 얻기 위해 geometry latents와 first-frame anchored track latents를 사용하는 dual-latent 입력 구조를 도입한다.
dual-latent representation의 도입
geometry latents는 프레임별 RGB와 reconstruction pointmap을 인코딩하고, track latents는 reference 프레임의 geometry latent를 모든 타임스탬프에 걸쳐 반복해Dense Queries 역할을 한다.
Temporal RoPE alignment의 제안
타임스탬프를 track latents에 부여하기 위해 RoPE의 temporal 축을 재해석하여 rj가 gj의 tj에 대해 올바른 타임스탬프를 attend하도록 한다.
단일 패스 추론과 LoRA 미세조정
diffusion 타당화된 1스텝 추론으로 계산 비용을 줄이고 LoRA를 이용한 가볍게 미세조정하여 성능 향상을 달성한다.
벤치마크에서의 최상위 성능 및 효율성 개선
전통적 iterative 트래킹과 비교해 1.3× 빠른 실행 속도와 4.6× 감소된 peak 메모리 사용을 달성하며, 3D sparse/dense 벤치마크에서 state-of-the-art 성능을 보인다.
핵심 아이디어 이해하기
단계 1: 문제 정의 - 밀집 3D 트래킹은 프레임별로 독립적으로 생성하는 프레임-앵커링 outputs가 아니라, sequence 전반에 걸쳐 동일한 실제 포인트를 추적해야 한다는 제약이 있다. 기존 video DiT는 프레임별 예측에 집중하는 반면, Dense 3D 트래킹은 reference 프레임의 포인트를 시간 축에 걸쳐 추적하는 것이 필요하다.
방법론
단계 2: 해결 원리 - 두 종류의 latent를 병렬로 사용한다. geometry latent gj는 각 tj에서의 3D 기하학 정보를 담고, track latent rj는 첫 프레임의 geometry latent를 모든 타임스탬프에 걸쳐 참조 프레임으로 고정해 Dense Queries 역할을 한다. 전체 입력은 gj와 rj를 token 차원으로 결합해 video DiT fθ에 전달되며, rj에 해당하는 출력은 추적 pointmap Pˆ0(tj)와 가시성 oˆj로 디코딩된다.
관련 Figure

RoPE-alignment와 dual-latent 구조가 frame-anchored 출력 대신 reference-anchored tracking으로의 전환을 가능하게 한다. 이 그림은 핵심 구성요소 간의 연결구조를 직관적으로 보여준다.
Figure 1: Dual-latent TrackCraft3R 아키텍처 개요. geometry latents와 track latents가 3D 포인트를 추적하기 위해 3D Attention으로 상호 작용한다.
주요 결과
단계 3: 특징 및 효과 - RoPE를 이용한 시간 축 정렬으로 각 track latent가 타깃 타임스탬프의 geometry latent에 주로 주목하도록 한다. Residual displacement Δj를 추정하는 형태로 트래킹 포인트를 업데이트하며, Pˆ0(tj)=P0(t0)+Δˆj로 최종 추정치를 얻는다. Ablation에서 (a) First-frame anchoring 제거와 (b) Temporal RoPE alignment 제거가 성능 감소에 가장 큰 영향을 주었고, (c) Residual displacement 제거는 APD3D를 떨어뜨린다. LoRA rank 확장 및 VAE 미세조정은 AJ/APD3D/OA를 지속적으로 향상시킨다.
관련 Figure

TrackCraft3R의 결과가 DELTAv2 기반 방법보다 Occlusion과 큰 모션에서도 더 정확한 트래킹을 보여주는지를 시각적으로 확인할 수 있다.
Figure 4: ITTO/DAVIS 데이터셋에서의 qualitative 비교 - Input Video vs DELTAv2+ViPE vs TrackCraft3R+ViPE.

대규모 모션 및 장영상에서의 안정성이 DELTAv2 대비 우수하다는 정량 그래프를 제공한다.
Figure 5: Large-motion과 Long-video에 대한 Robustness 그래프. s(Stride) 및 L(Frame length) 증가 시 TrackCraft3R의 AJ/APD3D가 DELTAv2보다 더 느리게 감소한다.

다양한 실세계 영상에서 TrackCraft3R이 밀집 3D 트래킹에서 우수한 품질을 보여줌을 시각적으로 제시한다.
Figure 10-11: Kubric ITTO 등에서 TrackCraft3R의 Qualitative 결과 및 V-DPM 대비 비교
기술 상세
단락 1: 전체 아키텍처 - 입력으로 각 프레임의 RGB 및 reconstruction pointmap을 각각 VAE 인코더 rgb와 pm으로 인코딩하고, geometry latent gj와 first-frame anchored track latent rj를 생성한다. gj는 [z_rgb_j; z_pm_j]로 구성되고, rj는 g0를 모든 타임스탬프에 복제해 생성한다. 두 타입의 latent를 토크나이즈 차원에서 연결한 뒤 video DiT fθ에 입력한다. Temporal RoPE를 통해 tj를 각 track latent에 부여하고, 각 rj는 gj의 tj에 attention을 집중한다.
관련 Figure

Temporal RoPE alignment의 효과를 직관적으로 보여주는 시각으로, track latent가 동일 물리 포인트에 집중하는지 확인 가능하다.
Figure 6-9: Attention visualization - r5의 query가 g5 타임스탬프와의 연결을 보여주는 RoPE 정렬 시각화.
한계점
본 시스템은 입력으로 주어지는 per-frame depth와 카메라 포즈 같은 3D 기하 정보의 품질에 의존한다. 입력 기하 정보의 품질이 떨어지면 TrackCraft3R의 전체 성능이 한계에 도달할 수 있다. 또한 실제 인간이나 복잡한 장면에서의 적용은 추가적 윤리적 고려와 안전성 검토가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.