핵심 요약
기존 비디오 생성 모델은 카메라 시점 변화와 물체의 움직임을 하나로 뭉뚱그려 처리하여 정교한 제어가 어려웠다. MoRight는 이를 독립적으로 분리하고 물체 간의 인과관계를 학습함으로써, 사용자가 원하는 동작을 입력하면 그에 따른 자연스러운 물리적 반응까지 생성하는 새로운 수준의 상호작용형 비디오 생성을 가능하게 한다.
왜 중요한가
기존 비디오 생성 모델은 카메라 시점 변화와 물체의 움직임을 하나로 뭉뚱그려 처리하여 정교한 제어가 어려웠다. MoRight는 이를 독립적으로 분리하고 물체 간의 인과관계를 학습함으로써, 사용자가 원하는 동작을 입력하면 그에 따른 자연스러운 물리적 반응까지 생성하는 새로운 수준의 상호작용형 비디오 생성을 가능하게 한다.
핵심 기여
카메라와 물체 모션의 완전한 분리 제어
Dual-stream 아키텍처를 통해 물체의 움직임은 고정된 시점(Canonical View)에서 정의하고, 이를 임의의 카메라 시점으로 전이시키는 방식을 도입하여 두 제어 신호 간의 간섭을 제거했다.
모션 인과관계 추론 능력 확보
움직임을 능동적(Active) 요소와 수동적(Passive) 요소로 구분하여 학습함으로써, 손이 컵을 밀면 컵이 미끄러지는 것과 같은 물리적 인과관계를 모델이 스스로 생성하도록 했다.
순방향 및 역방향 추론 지원
사용자가 원인 동작을 입력하여 결과를 예측하는 순방향 추론뿐만 아니라, 원하는 결과 상태를 지정하면 그에 필요한 원인 동작을 찾아내는 역방향 추론 기능을 동시에 제공한다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 픽셀의 이동 궤적(Trajectory)을 직접 입력받아 영상을 렌더링하는 방식을 사용한다. 하지만 카메라가 움직이면 화면상의 모든 픽셀 궤적이 변하기 때문에, 물체 고유의 움직임과 카메라의 움직임이 Embedding 공간에서 서로 얽히게 되어 정교한 제어가 불가능해지는 한계가 있었다.
MoRight는 이를 해결하기 위해 물체의 움직임을 '정지된 가상 카메라 시점'인 Canonical View에서 먼저 처리한다. Transformer의 Self-Attention 메커니즘을 활용하여, 고정 시점에서 계산된 물체의 움직임 정보(Key/Value)를 실제 타겟 카메라 시점의 쿼리(Query)와 연결하는 Temporal Cross-view Attention을 수행한다. 이를 통해 물체는 원래 의도한 궤적을 유지하면서도 카메라 시점만 자유롭게 변경되는 효과를 얻는다.
또한, 단순한 위치 이동을 넘어 물리적 상호작용을 이해하기 위해 Motion Dropout 기법을 적용했다. 학습 과정에서 원인 동작이나 결과 반응 중 하나를 무작위로 가리고 나머지를 생성하게 함으로써, 모델이 픽셀의 흐름 뒤에 숨겨진 '원인과 결과'라는 논리적 구조를 내재화하도록 유도했다. 그 결과, 사용자가 컵을 들어 올리는 궤적만 그려주어도 모델은 컵 안의 물이 쏟아지는 반응을 스스로 계산해낸다.
관련 Figure

사용자의 손(Active)이 천(Passive)을 잡고 움직이는 상황에서 각 객체의 역할을 정의하는 방식을 보여준다. 이러한 구분을 통해 모델이 원인과 결과의 인과관계를 학습할 수 있는 데이터 구조를 형성한다.
능동적 모션과 수동적 모션의 구분 예시
방법론
MoRight는 DiT(Diffusion Transformer) 기반의 Latent Video Diffusion 모델을 확장한 Dual-stream 구조를 채택했다. 첫 번째 스트림은 Canonical View에서 물체의 모션을 생성하고, 두 번째 스트림은 타겟 카메라 시점에서 최종 비디오를 생성한다. 두 스트림은 가중치를 공유하며 Transformer 블록 내부의 Self-Attention 레이어를 통해 정보를 교환한다.
카메라 제어를 위해 첫 번째 프레임을 카메라 포즈와 깊이 정보를 이용해 워핑(Warping)한 후 VAE로 인코딩하여 조건으로 주입한다. [입력 이미지와 카메라 행렬 → 3D 공간 투영 및 재투영 → 워핑된 이미지 생성] 과정을 거쳐 시점 변화에 따른 기하학적 가이드를 제공한다. 물체 모션은 픽셀 궤적 맵을 경량 인코더로 처리하여 각 Transformer 블록에 더해준다.
인과관계 학습을 위해 데이터를 Active(사용자 주도)와 Passive(환경 반응) 모션으로 분해한다. 학습 시 Motion Dropout 전략을 사용하여 [전체 모션 중 일부 탈락 → 남은 모션 입력 → 전체 모션 복원] 과정을 수행하며, 이를 통해 모델은 특정 동작이 주어졌을 때 발생할 물리적 결과를 추론하는 능력을 학습한다.
관련 Figure

Condition Encoding 단계에서 이미지, 모션, 카메라 궤적을 각각 인코딩한 후 Dual-stream generation 과정을 거쳐 소스 뷰와 타겟 뷰를 동시에 생성하는 구조를 보여준다. Cross-View Self-Attention이 두 스트림 사이에서 모션 정보를 전이시키는 핵심 역할을 수행함을 시각화하고 있다.
MoRight의 전체 모델 아키텍처 다이어그램
주요 결과
DynPose-100K 및 Cooking 데이터셋에서 기존 SOTA 모델인 WanMove, ATI 등과 비교 실험을 수행했다. MoRight는 카메라 회전 오차(Rot)와 평행 이동 오차(Trans)에서 가장 낮은 수치를 기록하며 압도적인 시점 제어 정확도를 보였다. 특히 Cooking 데이터셋에서 PSNR 16.44, SSIM 0.594를 기록하며 시각적 품질과 제어 정확도 사이의 균형을 증명했다.
WISA 데이터셋을 활용한 물리적 상호작용 평가에서 Physical Commonsense(PC) 점수 0.76을 기록하여, 상세한 텍스트 설명 없이도 물리적으로 타당한 영상을 생성함을 확인했다. 사용자 선호도 조사에서도 제어 가능성(53.5%), 모션 사실성(54.6%), 사진 사실성(55.9%) 모든 항목에서 기존 모델들을 2배 이상의 격차로 따돌리며 최고점을 받았다.
관련 Figure

Controllability, Motion Realism, Photorealism 세 가지 지표 모두에서 MoRight가 ATI나 WanMove보다 압도적으로 높은 선호도를 얻었음을 보여준다. 특히 모션의 물리적 사실성 측면에서 54.6%의 선택을 받아 인과관계 추론의 효과를 입증한다.
기존 모델들과의 사용자 선호도 비교 차트
기술 상세
MoRight의 핵심은 Flow Matching 목적 함수를 사용하는 DiT 아키텍처를 Dual-stream으로 구성한 점이다. 두 스트림은 동일한 가중치를 공유하지만 서로 다른 Temporal Index를 사용하여 시점 간의 차이를 인식한다. Canonical Stream은 모션 제어의 앵커 역할을 수행하며, Target Stream은 실제 사용자가 보게 될 결과물을 생성한다.
데이터 큐레이션 과정에서 Qwen3-VL과 SAM2를 결합하여 비디오 내 객체를 Active/Passive로 자동 레이블링하는 파이프라인을 구축했다. 또한 단일 뷰 실세계 영상을 활용하기 위해 Mixed-training 전략을 사용했는데, 정적 카메라 영상은 두 스트림에 동일하게 복제하여 입력하고 동적 카메라 영상은 Target Stream에만 손실 함수를 적용하여 모델의 강건성을 높였다.
추론 시에는 사용자가 그린 희소한 궤적(Sparse Trajectories)을 입력받으며, 첫 번째 프레임의 Depth 정보를 활용해 가려짐(Occlusion)을 고려한 마스킹을 수행함으로써 궤적 정보가 부정확한 상황에서도 안정적인 생성이 가능하도록 설계되었다.
관련 Figure

원시 비디오에서 포즈 추정, 트래킹, 깊이 추정을 거쳐 모션을 분해하고 다중 시점 영상을 합성하는 3단계 과정을 설명한다. 특히 Qwen 모델을 활용해 객체의 속성을 분류하고 비디오-투-비디오 모델로 학습 데이터를 증강하는 전략이 포함되어 있다.
데이터 큐레이션 파이프라인 단계별 설명
한계점
두 개의 꼬치(Kabob)가 하나로 합쳐지는 것과 같은 잘못된 상호작용 추론이 발생할 수 있다. 또한 손에 의해 물체가 가려지는 등 입력 궤적이 시간적으로 불연속해질 경우 부자연스러운 움직임이 나타나거나, 나중에 나타나는 프레임에서 여분의 손이 생성되는 할루시네이션 현상이 관찰되기도 한다. 매우 빠르고 급격한 카메라 움직임(Egocentric Motion)에 대해서는 제어 성능이 저하되는 한계가 있다.
실무 활용
이 기술은 사용자의 간단한 스케치나 클릭만으로 정교한 물리 시뮬레이션이 포함된 영상을 제작할 수 있어 콘텐츠 제작 및 로봇 공학 분야에 즉시 응용 가능하다.
- 몰입형 콘텐츠 제작: 정지 영상에서 사용자가 물체를 움직이고 시점을 자유롭게 변경하며 탐험하는 인터랙티브 비디오 생성
- Embodied AI 학습: 로봇 에이전트가 특정 행동을 했을 때 환경이 어떻게 변할지 예측하는 월드 모델(World Model)로 활용
- 영상 편집 도구: 복잡한 3D 툴 없이도 영상 내 물체의 움직임을 물리 법칙에 맞게 수정하거나 시점을 재구성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.