Native-RoPE(회전 위치 임베딩)
Native-RoPE는 템포럴과 스페이셜 위치 정보를 분리하여 인덱싱하는 로테이티드 포지션 임베딩으로, 단일 백본에서 시공간 관계를 학습하도록 한다. 텍스트 tokens는 시간 축에만 인덱스를 갖고, 이미지 토큰은 동일 프레임 내에서 시간 축과 공간 좌표를 각각 인덱싱한다.