핵심 요약
기존 비디오 편집은 물체의 이동 경로를 바꾸려면 재촬영이 필요하거나 복잡한 수동 편집이 필요했다. 이 논문은 물리 법칙을 따르는 합성 데이터를 활용해, 사용자가 물체를 원하는 위치로 끌어다 놓기만 해도 주변 환경과 상호작용하며 자연스럽게 움직이는 비디오를 생성하는 기술을 구축했다.
왜 중요한가
기존 비디오 편집은 물체의 이동 경로를 바꾸려면 재촬영이 필요하거나 복잡한 수동 편집이 필요했다. 이 논문은 물리 법칙을 따르는 합성 데이터를 활용해, 사용자가 물체를 원하는 위치로 끌어다 놓기만 해도 주변 환경과 상호작용하며 자연스럽게 움직이는 비디오를 생성하는 기술을 구축했다.
핵심 기여
TrajectoryMover 모델 구축
소스 비디오와 시작/목표 위치를 나타내는 바운딩 박스만으로 객체의 3D 궤적을 재배치하는 비디오 대 비디오 생성 모델이다.
TrajectoryAtlas 데이터 파이프라인 개발
물리 시뮬레이션과 렌더링을 결합하여 궤적 이동 학습에 필요한 대규모 합성 쌍(paired) 비디오 데이터셋을 생성하는 체계를 구축했다.
물리적 타당성을 고려한 장면 인식 궤적 생성
단순히 위치만 옮기는 것이 아니라, 새로운 경로에 있는 장애물과의 충돌이나 바닥면과의 접촉 등 물리적 타당성을 고려하여 움직임을 동적으로 수정한다.
사전 지식 보존을 위한 교차 학습 전략
모델이 원래 가진 비디오 생성 능력을 잃지 않도록 실제 비디오 생성 작업과 합성 데이터를 활용한 궤적 이동 작업을 번갈아 학습하는 방식을 적용했다.
핵심 아이디어 이해하기
기존의 비디오 확산 모델은 고품질 영상을 생성하는 데 탁월하지만, 특정 물체의 이동 경로를 정밀하게 제어하면서 동시에 배경과 물체의 정체성을 유지하는 데는 한계가 있다. 특히 물체가 벽에 부딪히거나 바닥에 튀는 등의 물리적 상호작용을 새로운 경로에 맞춰 자동으로 수정하는 기능이 부족했다.
이 논문은 '궤적 이동' 문제를 해결하기 위해 물리 엔진(Bullet)을 활용한 합성 데이터 생성기인 TrajectoryAtlas를 도입한다. 이를 통해 동일한 장면에서 물체의 시작 위치만 다른 수만 개의 비디오 쌍을 생성하여, 모델이 물체의 원래 움직임 특성을 유지하되 새로운 환경에 맞춰 경로를 수정하는 법을 학습하게 한다.
학습된 TrajectoryMover는 DiT(Diffusion Transformer) 아키텍처를 기반으로 소스 비디오의 특징과 사용자의 제어 신호를 결합한다. 결과적으로 사용자가 물체를 드래그하여 옮기면, 모델은 물체가 새로운 경로에서 장애물을 피하거나 바닥에 자연스럽게 안착하는 등 물리적으로 타당한 움직임을 스스로 계산하여 생성한다.
방법론
TrajectoryAtlas 데이터 생성 파이프라인은 Blender와 Bullet 물리 엔진을 사용하여 구축됐다. [3D 장면과 객체 에셋 입력] → [물리 시뮬레이션을 통한 다양한 궤적 계산] → [Blender를 이용한 포토 리얼리스틱 렌더링] → [동일 장면 내 객체 위치만 다른 쌍 비디오 데이터셋 획득] 과정을 거친다. 특히 '온라인 장면 수정' 기법을 통해 경로를 방해하는 비구조적 물체를 제거함으로써 더 정밀한 학습 데이터를 확보했다.
TrajectoryMover 모델은 Wan2.1-T2V-1.3B를 백본으로 사용하는 DiT 구조다. VAE를 통해 비디오 프레임 V를 spatio-temporal latents z로 매핑한다. [고해상도 비디오 픽셀 데이터를 입력으로] → [인코더 네트워크를 통해 차원을 축소하는 연산을 수행해] → [저차원의 잠재 벡터 z를 얻고] → [이 값은 비디오의 핵심 특징을 압축하여 담고 있어 생성 모델의 연산 부담을 줄여준다.] 이후 소스 비디오, 노이즈가 섞인 타겟 비디오, 제어 신호를 잠재 공간에서 결합하여 최종 비디오를 생성한다.
학습 시에는 '매개변수 효율적 튜닝'과 '교차 학습'을 적용한다. 네트워크 전체를 학습시키는 대신 Self-Attention과 Projector 레이어만 업데이트하며, 실제 비디오 데이터셋(T2V)과 합성 데이터셋(V2V)을 7:3 비율로 섞어 학습함으로써 모델이 기존에 가진 강력한 비디오 생성 사전 지식을 보존했다.
주요 결과
TrajectoryMover는 배경 보존(SSIMbg), 객체 정체성 유지(DINOfg), 궤적 준수(IoUtraj) 등 모든 정량적 지표에서 기존 모델들을 압도했다. 특히 배경 보존 점수에서 0.92를 기록하여 ATI(0.71)나 SFM(0.56)보다 월등히 높은 안정성을 보였다.
사용자 선호도 조사 결과, 동작의 타당성 측면에서 1.25점을 획득하여 2위인 SFM(0.10)과 큰 격차를 벌리며 가장 자연스러운 움직임을 생성하는 것으로 평가받았다.
소스 비디오의 움직임이 복잡한 경우에도 모델은 새로운 환경의 깊이와 지지면을 인식하여 궤적을 동적으로 수정했다. 이는 단순히 2D 픽셀을 옮기는 기존 방식과 달리 3D 공간에 대한 이해가 반영된 결과임이 확인됐다.
기술 상세
아키텍처는 Wan2.1 DiT 백본을 기반으로 하며, 세 개의 잠재 스트림(z_trj, z_src, z_bb)을 시간축을 따라 연결하여 노이즈 제거 과정을 수행한다. 프레임 레벨의 RoPE 인덱싱을 맞추기 위해 타겟 프레임을 먼저 배치하고 소스 프레임과 제어 잠재값을 뒤에 추가하는 구조를 취했다.
TrajectoryAtlas는 119개의 에셋과 113개의 실내 장면을 사용하여 약 21,000개의 비디오 쌍을 생성했다. 물리 시뮬레이션 시 강체 역학을 적용하여 중력, 초기 속도, 탄성력 등을 계산함으로써 데이터의 물리적 일관성을 확보했다.
제어 신호 Ibb는 소스 객체의 위치와 타겟 위치를 각각 빨간색과 초록색 박스로 표시한 단일 프레임으로 구성된다. 이는 모델이 어떤 물체를 어디로 옮겨야 하는지를 명확히 인지하게 하는 앵커 역할을 한다.
학습 과정에서 832x480 해상도와 81프레임 설정을 유지하며, 8개의 H100 GPU에서 총 3,200 스텝 동안 배치를 16으로 설정하여 파인튜닝을 진행했다.
한계점
TrajectoryMover는 궤적 준수 성능이 뛰어나지만, 완벽한 궤적 일치(IoUtraj 0.27)와 배경/객체 보존 사이의 트레이드오프가 존재한다. 또한 현재는 증명 단계의 모델로서 임의의 실제 야외 비디오 등 일반적인 환경으로의 일반화 능력은 아직 부족하며 추가적인 학습이 필요하다.
실무 활용
비디오 편집 전문가가 아니더라도 직관적인 드래그 앤 드롭 방식으로 영상 내 객체의 움직임을 수정할 수 있어 콘텐츠 제작 효율을 크게 높일 수 있다.
- 스포츠 중계 영상에서 공의 궤적을 수정하여 골대 안으로 들어가는 장면 연출
- 광고 영상에서 제품의 이동 경로를 더 극적으로 재배치
- 영화 후반 작업에서 CG 객체의 물리적 상호작용 자동 생성
- 홈 비디오에서 아이나 반려동물의 위치를 자연스럽게 이동
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.