핵심 요약
기존 비디오 편집 기술은 객체의 이동 경로를 바꾸려면 재촬영을 하거나 복잡한 수동 작업이 필요했다. 이 논문은 물리 법칙을 이해하는 AI를 통해 사용자가 객체를 원하는 위치로 옮기기만 하면 새로운 경로에서의 자연스러운 움직임과 충돌 효과까지 자동으로 생성하여 편집 비용을 획기적으로 줄인다.
왜 중요한가
기존 비디오 편집 기술은 객체의 이동 경로를 바꾸려면 재촬영을 하거나 복잡한 수동 작업이 필요했다. 이 논문은 물리 법칙을 이해하는 AI를 통해 사용자가 객체를 원하는 위치로 옮기기만 하면 새로운 경로에서의 자연스러운 움직임과 충돌 효과까지 자동으로 생성하여 편집 비용을 획기적으로 줄인다.
핵심 기여
TrajectoryMover 프레임워크
비디오 내 객체의 3D 궤적을 새로운 시작 위치로 이동시키면서 물리적 타당성과 객체의 정체성을 유지하는 비디오 대 비디오 생성 모델이다.
TrajectoryAtlas 데이터 파이프라인
물리 엔진(Bullet)과 렌더러(Blender)를 결합하여 궤적 이동 학습에 필요한 21,000쌍 이상의 대규모 합성 비디오 데이터를 자동으로 생성하는 시스템이다.
물리 기반 상호작용 제어
단순한 픽셀 이동을 넘어 새로운 경로에서 발생할 수 있는 환경과의 충돌, 중력의 영향 등을 동적으로 계산하여 영상에 반영한다.
교차 학습(Interleaved Training) 전략
합성 데이터 학습 시 모델이 기존의 일반적인 비디오 생성 능력을 잃지 않도록 실제 비디오와 합성 데이터를 7:3 비율로 섞어 학습하는 방식을 도입했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 텍스트나 이미지를 기반으로 새로운 영상을 만드는 데는 능숙하지만, 이미 존재하는 영상 속 객체의 움직임만 정교하게 수정하는 데는 한계가 있다. 특히 객체의 3D 궤적을 옮길 때 주변 환경(벽, 바닥 등)과의 물리적 상호작용을 유지하는 학습 데이터가 부족하여 모델이 물리 법칙을 무시하고 물체를 이동시키는 문제가 발생한다. 이 논문은 'TrajectoryAtlas'라는 가상 환경 시뮬레이터를 통해 이 문제를 해결한다. 물리 엔진을 사용하여 공이 튀거나 물체가 구르는 다양한 3D 경로를 계산하고, 이를 동일한 배경의 영상 쌍으로 제작하여 모델이 물리적 인과관계를 학습하게 한다. 결과적으로 사용자는 비디오의 첫 프레임에서 옮기고 싶은 객체와 목표 지점을 박스로 지정하기만 하면 된다. 모델은 입력 영상의 시각적 특징을 유지하면서도 학습된 물리적 직관을 바탕으로 새로운 궤적을 따라 움직이는 자연스러운 비디오를 생성한다.
방법론
전체 시스템은 데이터 생성부인 TrajectoryAtlas와 비디오 생성부인 TrajectoryMover로 구성된다. TrajectoryAtlas는 3D 장면 자산을 활용해 객체의 낙하(Drop), 투척(Throw), 구르기(Roll), 끌기(Drag) 등 다양한 물리 시뮬레이션을 수행하여 21,000쌍의 비디오 데이터를 구축한다. TrajectoryMover는 Wan2.1-T2V-1.3B 모델을 백본으로 사용하며 DiT 아키텍처를 기반으로 한다. 입력으로 소스 비디오 Vsrc와 제어 신호 Ibb(이미지)를 입력으로 하여 DiT 블록에서 연산을 수행하고 타겟 비디오 Vtrg의 잠재값을 출력한다. 이 값은 VAE 디코더를 거쳐 실제 픽셀 영상으로 변환되며 사용자가 지정한 위치에서 객체가 움직이는 최종 비디오를 의미한다. 학습 과정에서는 PEFT를 적용하여 Self-Attention과 Projector 레이어만 업데이트하고 나머지는 동결한다. 또한 Bradley-Terry 모델을 사용하여 P(i > j) = e^ui / (e^ui + e^uj)를 계산한다. 각 방법 i의 유틸리티 값 ui를 입력으로 지수 함수를 적용해 상대적 확률을 구하며 이 결과값이 클수록 사용자가 해당 모델의 결과물을 더 선호함을 의미한다.
주요 결과
TrajectoryMover는 배경 보존(SSIMbg 0.92), 객체 정체성 유지(DINOfg 0.45), 궤적 준수(IoUtraj 0.27) 등 모든 정량적 지표에서 기존 SOTA 모델인 ATI, SFM 등을 압도했다. 특히 SFM 대비 궤적 준수 성능이 0.23에서 0.27로 향상되었으며 배경 보존 능력은 0.56에서 0.92로 크게 개선되었다. 사용자 선호도 조사 결과 물리적 타당성 측면에서 1.25점을 기록하여 2위인 SFM(0.10점)과 큰 격차를 보였다. 이는 모델이 단순히 픽셀을 옮기는 것이 아니라 장면의 깊이와 구조를 이해하고 움직임을 생성함을 입증한다. Ablation Study를 통해 다양한 객체와 온라인 장면 수정 기법의 중요성을 확인했으며 장면 수정 없이 학습할 경우 장애물 회피 능력이 떨어져 궤적 정렬 성능이 하락하는 결과가 나타났다.
기술 상세
아키텍처는 Wan2.1의 DiT 구조를 활용하며 VAE를 통해 비디오를 시공간 잠재 공간으로 매핑한다. 세 개의 잠재 스트림인 타겟(ztrj), 소스(zsrc), 제어 신호(zbb)를 시간축을 따라 연결한 후 디노이징 과정을 거친다. 프레임 레벨의 RoPE 인덱싱을 맞추기 위해 타겟 프레임을 먼저 배치하고 소스 프레임과 제어 잠재값을 뒤에 추가하는 방식을 취한다. 이는 모델이 소스 비디오의 시간적 맥락을 참조하여 타겟 비디오를 생성하도록 유도한다. 물리 시뮬레이션은 Bullet 엔진을 사용하며 궤적 생성 시 초기 속도와 힘을 조절하여 Drop, Throw, Roll, Drag의 네 가지 기본 모션을 구현한다. 특히 Drag 모션은 나선형, S자형 등 복잡한 경로를 포함하여 모델의 강건성을 높였다. 학습은 8개의 H100 GPU에서 총 배치 사이즈 16으로 3,200단계 동안 진행되었다.
한계점
TrajectoryMover는 기존 모델보다 뛰어나지만 궤적 준수 성능(IoUtraj 0.27)이 완벽하지 않아 엄격한 경로 추적에는 한계가 있다. 또한 현재는 합성 데이터 위주로 학습되어 임의의 실제 세계 비디오에 대한 일반화 성능이 아직 부족하며 추가적인 학습이 필요하다.
실무 활용
비디오 편집 전문가가 아니더라도 드래그 앤 드롭 방식으로 영상 속 물체의 움직임을 자연스럽게 수정할 수 있어 콘텐츠 제작 효율을 크게 높일 수 있다.
- 스포츠 중계 영상에서 공의 궤적을 수정하여 하이라이트 장면 연출
- 영화 및 광고 후반 작업에서 촬영된 객체의 위치를 물리적으로 자연스럽게 재배치
- 가상 환경 시뮬레이션에서 다양한 물리적 시나리오 비디오 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.