핵심 요약
기존 비디오 생성 모델은 물리적 법칙에 대한 이해 부족으로 물체가 왜곡되거나 사라지는 기하학적 오류를 자주 범한다. World-R1은 모델 구조 변경 없이 강화학습만으로 비디오의 3D 일관성을 획기적으로 개선하여, 단순한 영상 제작을 넘어 실제 세상을 시뮬레이션하는 월드 모델로의 진화를 가능하게 한다.
왜 중요한가
기존 비디오 생성 모델은 물리적 법칙에 대한 이해 부족으로 물체가 왜곡되거나 사라지는 기하학적 오류를 자주 범한다. World-R1은 모델 구조 변경 없이 강화학습만으로 비디오의 3D 일관성을 획기적으로 개선하여, 단순한 영상 제작을 넘어 실제 세상을 시뮬레이션하는 월드 모델로의 진화를 가능하게 한다.
핵심 기여
World-R1 프레임워크 제안
별도의 3D 데이터셋이나 모델 구조 변경 없이 강화학습(RL)을 통해 비디오 생성 모델에 3D 기하학적 제약 조건을 주입하는 새로운 패러다임을 제시했다.
Flow-GRPO 기반 최적화
Flow-matching 기반 모델에 최적화된 Flow-GRPO 알고리즘을 적용하여, 3D 파운데이션 모델과 VLM의 피드백을 통해 기하학적 일관성을 내재화했다.
암시적 카메라 컨디셔닝 전략
추가적인 제어 모듈 없이 초기 잠재 노이즈(Latent Noise)에 카메라 궤적 정보를 임베딩하는 Noise Wrapping 기법을 통해 정밀한 시점 제어를 구현했다.
주기적 디커플링 학습법
엄격한 3D 제약 조건이 비강체(Non-rigid)의 자연스러운 움직임을 억제하는 문제를 해결하기 위해, 일반 데이터와 동적 데이터를 번갈아 학습하는 전략을 도입했다.
핵심 아이디어 이해하기
기존의 비디오 생성은 주로 2D 픽셀 간의 상관관계를 학습하는 데 집중하며, 이는 Transformer 아키텍처가 시퀀스 데이터의 패턴을 파악하는 방식과 유사하다. 하지만 현실 세계는 3차원 기하학적 구조를 따르기 때문에, 카메라가 움직일 때 물체의 원근감이나 가려짐(Occlusion)이 물리적으로 타당해야 한다. 기존 모델은 이러한 3D 지식이 부족하여 시점이 크게 변할 때 배경이 뒤틀리거나 물체가 변형되는 한계가 있었다.
World-R1은 비디오 모델이 이미 잠재적으로 3D 정보를 인코딩하고 있다는 가설에서 출발한다. 이를 끌어내기 위해 강화학습의 보상(Reward) 시스템을 설계했다. 생성된 비디오를 3D Gaussian Splatting 기법으로 복원해보고, 새로운 시점(Meta-view)에서 렌더링했을 때 구조가 깨지지 않는지 VLM으로 평가한다. 즉, 모델이 '3D적으로 올바른' 영상을 만들 때만 높은 점수를 주어 스스로 물리 법칙을 깨닫게 유도한다.
결과적으로 모델은 단순한 프레임 예측기를 넘어 기하학적으로 일관된 공간을 시뮬레이션하는 능력을 갖추게 된다. 이는 복잡한 수식이나 외부 제어 장치 없이도 모델 내부의 가중치가 3D 제약 조건을 내재화하도록 정렬(Alignment)된 결과이다.
방법론
World-R1은 Flow-matching 기반의 비디오 모델을 Flow-GRPO 알고리즘으로 미세 조정한다. 전체 과정은 카메라 궤적 생성, 노이즈 임베딩, 다중 보상 시스템으로 구성된다.
카메라 제어를 위해 텍스트 프롬프트에서 키워드를 추출하여 3D 공간의 외부 행렬(Extrinsic Matrix) E를 생성한다. [입력 프롬프트 → 키워드 매칭 → 변환 행렬 계산 → 3D 궤적 산출] 순으로 계산되며, 이를 2D 광학 흐름(Optical Flow)으로 투영하여 초기 잠재 노이즈를 워핑(Warping)한다. 이는 별도의 네트워크 없이 노이즈 분포만으로 모델에 시점 이동 정보를 전달하는 역할을 한다.
보상 함수 R은 3D 일관성(R3D)과 일반 품질(Rgen)의 가중 합으로 정의된다. R3D는 다시 세 가지 요소로 나뉜다. 첫째, Smeta는 3D Gaussian Splatting으로 복원된 장면을 새로운 각도에서 렌더링하고 Qwen3-VL로 평가하여 기하학적 무결성을 측정한다. 둘째, Srecon은 원본 영상과 재렌더링 영상 간의 LPIPS 거리를 계산한다. [두 영상의 특징 벡터 추출 → 차이값 계산 → 음수화 → 유사도 의미] 순으로 연산되어 시각적 충실도를 보장한다. 셋째, Straj는 의도한 궤적과 실제 생성된 움직임 간의 L2 거리를 계산해 제어 정확도를 높인다.
관련 Figure

텍스트 데이터셋에서 카메라 궤적을 생성하고 이를 노이즈에 주입하여 비디오를 생성한 뒤, 3DGS 복원 및 다중 보상 시스템을 통해 모델을 최적화하는 전체 파이프라인을 보여준다. 특히 3D Foundation Model과 VLM이 보상 설계의 핵심임을 명시한다.
World-R1의 전체 프레임워크 구조도
주요 결과
실험 결과, World-R1은 기존 Wan 2.1 모델 대비 3D 일관성 지표인 PSNR에서 10.23dB, SSIM에서 상당한 개선을 보였다. 특히 복잡한 카메라 움직임이 포함된 장면에서 물체가 사라지거나 배경이 왜곡되는 현상이 크게 줄어들었음이 확인됐다.
VBench를 이용한 일반 비디오 품질 평가에서도 미세 조정 전보다 높은 점수를 기록했다. Aesthetic Quality는 65.74, Imaging Quality는 67.53을 달성하여, 3D 제약 조건을 강화하면서도 모델 본연의 시각적 화질과 생성 능력을 보존하거나 오히려 향상시켰다.
Ablation Study를 통해 Noise Wrapping과 주기적 디커플링 학습의 중요성이 입증됐다. 노이즈 워핑을 제거했을 때 궤적 정렬 성능이 급격히 하락했으며, 주기적 학습이 없을 경우 모델이 정적인 장면에만 과적합되어 역동적인 움직임을 생성하지 못하는 문제가 발생했다.
관련 Figure

Wan2.1, CogVideoX 등 기존 모델은 3D 복원 시 포인트 클라우드가 흩어지거나 왜곡되지만, World-R1은 밀도 높고 구조적으로 정확한 3D 시각화 결과를 보여주며 기하학적 일관성을 증명한다.
기존 모델들과 World-R1의 생성 결과 및 3D 복원 품질 비교
기술 상세
World-R1의 핵심 아키텍처는 Wan 2.1(1.3B 및 14B)을 기반으로 하며, Flow-GRPO-Fast 알고리즘을 통해 효율적인 온라인 강화학습을 수행한다. GRPO는 Critic 네트워크 없이 그룹 내 상대적 보상을 사용하여 Advantage를 추정하므로 메모리 효율이 높다.
3D 복원을 위해 Depth Anything 3를 활용하여 생성된 비디오에서 깊이 정보를 추출하고 이를 3D Gaussian Splatting(3DGS) 표현체로 변환한다. 이 과정에서 추정된 카메라 궤적 ˆE와 프롬프트의 목표 궤적 E 간의 편차를 줄이는 방향으로 학습이 진행된다.
학습 데이터는 Gemini를 활용해 생성한 3,000개의 순수 텍스트 프롬프트셋을 사용한다. 이는 특정 비디오 데이터셋의 편향에서 벗어나 순수하게 기하학적 법칙만을 학습하기 위함이다. 또한 500개의 고엔트로피 동적 장면 데이터를 별도로 구성하여 주기적 디커플링 학습에 활용함으로써 비강체 역학(Non-rigid dynamics)의 손실을 방지했다.
관련 Figure

Ablation Study 결과를 통해 Noise Wrapping과 3D-aware reward가 없을 때 학습 효율과 최종 성능이 어떻게 저하되는지 수치적으로 보여준다. Full 모델이 가장 안정적으로 높은 보상을 획득함을 알 수 있다.
학습 시간에 따른 보상 값의 변화를 나타낸 그래프
한계점
강화학습을 비디오 생성에 적용하는 데 따르는 높은 계산 비용이 여전히 병목 현상으로 남아 있다. 또한 기본 모델인 Wan 2.1의 생성 능력에 의존하므로, 손가락의 세밀한 움직임이나 매우 긴 시간의 장면 진화와 같이 베이스 모델이 취약한 부분에서는 여전히 한계가 나타날 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.