시각 기하 기반 트랜스포머
이미지 내의 기하학적 구조를 학습 과정에서 명시적으로 고려하도록 설계된 트랜스포머 아키텍처로, 외부 센서 없이도 3D 정보를 추론하는 능력이 뛰어납니다.
카메라 위치 정보 없이도 정확한 3D 객체 탐지, VGGT-Det로 mAP 8.6% 향상