Track4World: 모든 픽셀에 대한 피드포워드 방식의 세계 중심 고밀도 3D 트래킹

왜 중요한가

기존 3D 트래킹 기술은 소수의 점만 추적하거나 연산량이 너무 많아 실용성이 낮았지만, 이 논문은 모든 픽셀을 세계 좌표계 기준으로 동시에 추적하면서도 연산 효율성을 극대화했다. 이는 로봇 공학이나 자율 주행 분야에서 주변 환경의 동적인 움직임을 픽셀 단위로 정밀하게 이해하는 데 획기적인 기여를 한다.

핵심 기여

Feedforward World-centric Tracking

반복적인 최적화 과정 없이 단 한 번의 연산으로 영상 내 모든 픽셀의 3D 궤적을 세계 좌표계에서 직접 추정하는 효율적인 프레임워크를 구축했다.

2D-to-3D Correlation Module

연산 비용이 높은 3D 공간 검색 대신 2D 이미지 평면의 상관관계를 활용하고 이를 3D로 확장하는 방식을 도입하여 연산 복잡도를 O(N^2)에서 O(N)으로 획기적으로 낮췄다.

2D-3D Joint Supervision

부족한 3D 정답 데이터를 보완하기 위해 풍부한 2D Optical Flow 데이터를 학습 신호로 활용하여 모델의 범용성과 정확도를 동시에 확보했다.

Global Trajectory Fusion

임의의 프레임 쌍 사이에서 추정된 고밀도 흐름을 전역적으로 결합하여 전체 영상에 걸쳐 일관된 3D 궤적을 생성하는 기법을 적용했다.

핵심 아이디어 이해하기

기존의 고밀도 3D 트래킹은 Attention Mechanism을 3D 공간의 모든 점에 적용하거나 k-Nearest Neighbor 검색을 수행해야 했다. 이 방식은 픽셀 수가 늘어날수록 연산량이 제곱(N^2)으로 증가하여 실제 영상 처리에 한계가 있었다. Track4World는 이 문제를 해결하기 위해 2D 이미지 평면에서 먼저 픽셀 간의 연관성(Correlation)을 계산하는 방식을 택했다.

핵심 원리는 2D 평면에서 찾은 픽셀 간의 대응 관계를 3D 기하학적 정보와 결합하여 '들어 올리는(Lifting)' 것이다. 즉, 복잡한 3D 공간 검색을 단순한 2D 좌표 기반 룩업 연산으로 대체함으로써 연산 효율성을 극대화했다. 이는 딥러닝의 기초인 Embedding과 Correlation 개념을 3차원 공간 재구성과 영리하게 연결한 결과이다.

결과적으로 카메라가 움직이는 상황에서도 배경은 고정되고 물체만 이동하는 실제 세계의 절대적인 움직임을 모든 픽셀 단위로 파악할 수 있게 됐다. 이는 기존의 카메라 중심 트래킹이 가졌던 시각적 왜곡 문제를 해결하고, 로봇이 실제 물리 세계를 이해하는 방식과 유사한 데이터를 제공한다.

방법론

VGGT 스타일의 Vision Transformer 백본을 사용하여 입력 영상으로부터 Geometric Embedding, Point Cloud, Camera Pose를 포함한 전역적인 3D 장면 표현을 추출한다. 이 과정에서 각 프레임의 기하학적 특징이 픽셀 단위로 정렬된 상태로 인코딩된다.

2D-to-3D Correlation 모듈은 GRU 기반의 반복적 업데이트 구조를 사용하여 2D 흐름과 3D 흐름을 순차적으로 정교화한다. [현재의 2D 흐름 M_2d를 입력으로] → [타겟 프레임의 3D 좌표 p_j를 보간하여 추출하고] → [소스 점과의 특징 차이를 계산하여 3D 흐름 업데이트 값 dM_3d를 도출하며] → [이를 통해 최종적인 3D 궤적을 갱신하는] 과정을 거친다.

연산 효율을 위해 Sparse-to-Dense 전략을 채택했다. 전체 해상도에서 직접 연산하는 대신 1/8 크기의 앵커 포인트에서 먼저 흐름을 계산한다. 이후 Learned Upsampling 기법인 Pixel-shuffle 연산을 통해 전체 해상도의 고밀도 흐름으로 복원하여 메모리 사용량을 최소화하면서도 세밀한 디테일을 유지한다.

주요 결과

Kubric-3D 및 KITTI 벤치마크 실험 결과, Track4World는 기존 SOTA 모델인 Any4D, V-DPM 대비 2D/3D 흐름 추정 정확도에서 압도적인 성능을 기록했다. 특히 Kubric-3D Long 설정에서 EPE3D 오차를 기존 대비 절반 이하로 줄이는 성과를 거뒀다.

3D 트래킹 성능 지표인 APD(Average Percent Deviation) 측정에서 PointOdyssey와 ADT 데이터셋 모두에서 기존 모델들을 능가했다. 카메라 좌표계뿐만 아니라 세계 좌표계 트래킹에서도 일관되게 높은 정확도를 유지하여 전역적인 일관성을 입증했다.

효율성 분석 결과, 16프레임 영상의 고밀도 트래킹을 수행하는 데 단 3.4초가 소요됐다. 이는 경쟁 모델들이 동일한 설정에서 메모리 부족(OOM)으로 작동하지 못하는 것과 대조적이며, 모델 파라미터 수 또한 26M 수준으로 매우 경제적이다.

실무 활용

단일 카메라 영상만으로 정밀한 4D 재구성이 가능해져, 고가의 장비 없이도 자율 주행이나 로봇 제어 시스템의 공간 인지 능력을 크게 향상시킬 수 있다.

자율 주행 차량이 주변 차량 및 보행자의 실제 3D 이동 경로를 픽셀 단위로 예측하여 사고 예방
로봇 팔이 복잡하게 움직이는 물체를 조작할 때 물체의 모든 표면 지점을 실시간으로 추적
영화 및 게임 제작 시 실사 영상 속 인물이나 사물의 움직임을 별도의 마커 없이 3D 모션 데이터로 변환

기술 상세

전체 아키텍처는 VGGT 기반의 ViT를 백본으로 하여 카메라 중심의 포인트 클라우드와 포즈를 동시에 추정하는 구조이다. 이는 기존의 단안 깊이 추정 모델보다 시간적 일관성이 뛰어난 기하학적 기초를 제공한다.

핵심 메커니즘인 2D-to-3D Correlation은 2D 이미지 평면의 상관관계 볼륨을 3D 흐름 예측의 가이드로 활용한다. 3D Flow Head는 Lifted Target Samples와 Source Context를 결합하여 3D 변위를 예측하는데, 이때 O(N) 복잡도의 직접 좌표 룩업을 사용하여 O(N^2)의 전역 Attention 연산을 대체했다.

구현 측면에서는 2D 데이터셋(AutoFlow, FlyingChairs 등)과 3D 데이터셋(Kubric-3D, PointOdyssey 등)을 혼합하여 사용하는 Joint Supervision 전략을 적용했다. 이를 통해 3D 정답 데이터가 부족한 실제 환경에서도 2D 모션 정보를 바탕으로 강건한 3D 추론이 가능하도록 설계됐다.

학습은 2단계로 진행된다. 1단계에서는 기하학적 추정 백본을 미세 조정하고, 2단계에서는 백본을 고정한 채 흐름 추정 모듈을 학습시킨다. 8개의 40GB GPU 환경에서 약 2주간의 학습을 통해 최적의 성능을 확보했다.

한계점

4D 모션 데이터셋에 대한 의존도가 높아 학습 데이터에 포함되지 않은 극단적인 카메라 포즈나 물체의 복잡한 위상 변화가 발생하는 장면에서는 일반화 성능이 제한될 수 있다.

키워드

3D Tracking(3D 트래킹)Scene Flow(장면 흐름)Monocular Video(단안 비디오)World-centric(세계 중심 좌표계)Feedforward Model(피드포워드 모델)