프레임-기반에서 참조 기반으로의 고정
입력은 프레임-앵커 reconstruction pointmap이고 출력은 참조 프레임에 고정된 트래킹 pointmap이다. 이 둘 사이의 차이를 극복하기 위해 dual-latent 및 RoPE 정렬을 도입한다.