왜 중요한가
비디오 생성 및 편집에서 자연스러운 움직임을 제어하는 것은 매우 어렵다. 이 논문은 과거의 움직임 데이터를 바탕으로 미래의 아주 세밀한 점 단위 움직임을 길게 예측하여, AI가 만든 영상이 물리적으로 더 자연스럽고 일관되게 움직이도록 돕는다.
핵심 기여
Grid-Anchor Offset Encoding 도입
절대 좌표 대신 격자 중심점으로부터의 상대적 거리(오프셋)를 사용하여 화면 위치에 따른 통계적 편향을 제거하고 움직임 패턴 자체에 집중하도록 설계했다.
시공간 일관성 정규화 기반의 TrajLoom-VAE
인접한 점들이 물리적으로 유사하게 움직이도록 강제하는 정규화기를 도입하여, 압축된 잠재 공간에서도 매끄럽고 일관된 궤적 재구성이 가능하게 했다.
Flow Matching 기반의 장기 궤적 생성
Rectified Flow 모델과 On-policy K-step 미세 조정을 결합하여 기존 24프레임 수준의 예측 범위를 81프레임까지 확장하면서도 흔들림 없는 안정성을 확보했다.
TrajLoomBench 벤치마크 구축
실제 영상과 합성 영상을 아우르는 표준화된 고밀도 궤적 예측 평가 환경을 구축하여 기존 SOTA 모델 대비 압도적인 성능 향상을 입증했다.
핵심 아이디어 이해하기
기존 비디오 생성 기술은 픽셀 값의 변화에만 집중하거나 단순한 텍스트 설명에 의존하여 복잡한 움직임을 정교하게 제어하는 데 한계가 있었다. 특히 점 단위의 궤적을 예측할 때 화면상의 절대 좌표를 그대로 사용하면, 물체가 화면 왼쪽이나 오른쪽에 있을 때의 데이터 특성이 달라져 모델이 보편적인 움직임 원리를 배우기 어렵다는 문제가 발생한다.
TrajLoom은 모든 점을 격자 중심(Anchor)으로부터의 상대적 거리(Offset)로 변환하여 이 문제를 해결한다. 이는 마치 지도의 절대 위경도 대신 '현재 위치에서 동쪽으로 5미터'와 같은 상대 좌표를 쓰는 것과 같아, 모델이 위치와 상관없이 순수한 움직임의 변화량에만 집중할 수 있게 한다. 여기에 VAE를 결합하여 복잡한 궤적 데이터를 효율적으로 압축하고, 인접한 점들이 서로 찢어지지 않고 함께 움직이도록 시공간 일관성 규칙을 적용했다.
마지막으로, 생성 단계에서는 Flow Matching 기법을 사용하여 과거의 움직임 맥락을 바탕으로 미래의 경로를 그려낸다. 특히 모델이 스스로 예측한 경로에서 발생하는 미세한 오차를 다시 학습에 반영하는 On-policy 미세 조정을 통해, 시간이 지날수록 예측이 어긋나는 드리프트 현상을 억제하고 81프레임이라는 긴 시간 동안 안정적인 움직임을 유지하도록 만들었다.
방법론
Grid-Anchor Offset Encoding 단계에서는 입력 궤적 에서 정규화된 픽셀 중심 앵커 를 빼서 오프셋 필드 를 생성한다. [절대 좌표 입력 → 앵커 차감 연산 → 상대 오프셋 출력 → 위치 편향이 제거된 움직임 표현 획득].
TrajLoom-VAE는 오프셋 필드를 시공간 잠재 변수 로 압축한다. 이때 시공간 일관성 정규화기 를 사용하여 인접 프레임 간 속도와 인접 픽셀 간 상대 운동을 일치시킨다. [재구성된 궤적과 원본 궤적 입력 → 속도 및 이웃 관계 차이 계산 → 정규화 손실값 출력 → 물리적으로 매끄러운 궤적 생성 유도].
TrajLoom-Flow는 Rectified Flow 모델을 사용하여 과거 잠재 변수 와 비디오 특징을 조건으로 미래 잠재 변수 를 생성한다. [노이즈 상태 와 조건 정보 입력 → 속도 필드 적분 → 미래 잠재 변수 출력 → 연속적인 미래 움직임 예측].
On-policy K-step Fine-tuning은 학습 시의 보간 상태와 추론 시의 ODE 적분 상태 간의 괴리를 줄이기 위해, 모델이 직접 생성한 경로 위에서 오차를 계산하여 미세 조정한다. [K단계 롤아웃 수행 → 생성된 상태와 목표 상태 비교 → 손실값 계산 → 장기 예측 시 발생하는 드리프트 현상 억제].
주요 결과
TrajLoomBench 벤치마크 결과, Kinetics, RoboTAP, Kubric 등 다양한 데이터셋에서 기존 SOTA 모델인 WHN(L) 대비 FVMD(움직임 사실성 지표)를 약 2.5~3.6배 개선했다. 특히 Kubric 데이터셋에서 FVMD 수치가 4872에서 1338로 대폭 하락하며 압도적인 성능을 보였다.
안정성 지표인 FlowTV와 DivCurlE에서도 WHN 대비 현저히 낮은 수치를 기록했다. 이는 예측된 궤적이 공간적으로 찢어지거나 비정상적으로 회전하는 현상이 훨씬 적으며, 물리적으로 더 일관된 움직임을 생성함을 의미한다.
장기 예측 성능 분석에서는 24프레임에서 81프레임으로 예측 길이를 대폭 늘렸음에도 불구하고 VEPE(재구성 오차)가 안정적으로 유지되었다. 이는 제안된 잠재 공간 표현과 On-policy 학습 전략이 장기적인 시공간 맥락을 효과적으로 보존하고 있음을 입증한다.
실무 활용
고품질의 미래 궤적 예측은 사용자가 원하는 대로 영상을 편집하거나 생성하는 '제어 가능한 비디오 생성'의 핵심 요소다. Wan-Move와 같은 모델과 결합하여 정지 이미지 한 장과 과거 움직임만으로 자연스러운 후속 영상을 생성할 수 있다.
- 비디오 드래그 편집: 사용자가 영상 속 물체의 점을 찍어 이동 경로를 지정하면 자연스럽게 움직임 구현
- 정지 영상 애니메이션화: 사진 한 장과 짧은 움직임 힌트로 81프레임 이상의 긴 영상 생성
- 로봇 경로 계획 보조: 로봇 팔이나 자율 주행 객체의 미래 이동 궤적을 시각적으로 예측
- 영상 내 객체 복원: 가려짐(Occlusion)이 발생하는 구간에서 객체의 이동 경로를 정확히 추정
기술 상세
아키텍처는 DiT(Diffusion Transformer) 스타일의 Latte 설계를 기반으로 하며, 480x832 해상도의 궤적 필드를 32x32 패치 단위로 처리한다. VAE는 16개 블록과 8개 어텐션 헤드를 사용하며, 시간축 다운샘플링을 위한 컨볼루션 레이어를 통해 81프레임을 21개의 잠재 단계로 압축한다.
핵심 메커니즘인 Flow Matching은 의 선형 보간을 따르며, 조건부 속도 필드 를 학습한다. 조건 에는 과거 궤적의 잠재값, 가시성 마스크, 비디오 특징 및 T5 인코더 기반의 텍스트 임베딩이 포함되어 다중 모달 정보를 통합한다.
경계 힌트(Boundary Hints) 기법을 통해 과거의 마지막 프레임 정보를 미래 예측의 시작점으로 고정(Anchoring)하여 시간적 불연속성을 제거한다. 또한 토큰 정렬 퓨전(Token-aligned fusion) 모듈을 통해 과거 잠재 정보를 속도 네트워크에 직접 주입하여 초기 예측의 정확도를 높였다.
학습 시에는 Huber Loss를 재구성 손실로 사용하고, KL Divergence와 시공간 일관성 손실을 결합하여 최적화한다. On-policy 미세 조정 단계에서는 8단계의 Euler 롤아웃을 수행하여 모델이 스스로 방문한 상태에서의 속도 타겟을 정렬함으로써 추론 시의 안정성을 극대화했다.
한계점
사용자 주도의 궤적 편집(User-driven trajectory editing)과 같은 상호작용적 제어 능력을 더 개선할 필요가 있으며, 이를 향후 연구 과제로 명시했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.