핵심 요약
기존 비디오 생성 모델은 시각적으로는 화려하지만 물리적 상식이나 공간적 일관성이 부족한 경우가 많았다. DreamWorld는 물리 법칙과 기하학적 구조를 직접 학습하여 실제 세계처럼 작동하는 비디오 시뮬레이션을 가능하게 하며, 이는 자율주행이나 로봇 시뮬레이션 등 정교한 물리 이해가 필요한 분야에 핵심적인 기술이다.
왜 중요한가
기존 비디오 생성 모델은 시각적으로는 화려하지만 물리적 상식이나 공간적 일관성이 부족한 경우가 많았다. DreamWorld는 물리 법칙과 기하학적 구조를 직접 학습하여 실제 세계처럼 작동하는 비디오 시뮬레이션을 가능하게 하며, 이는 자율주행이나 로봇 시뮬레이션 등 정교한 물리 이해가 필요한 분야에 핵심적인 기술이다.
핵심 기여
통합 세계 모델링 프레임워크 제안
3D 시맨틱 일관성, 모션 템포럴 동역학, 2D 공간 기하학 등 다중 소스 세계 지식을 통합하는 최초의 비디오 생성 프레임워크인 DreamWorld를 개발했다.
일관된 제약 조건 어닐링(CCA) 전략
학습 과정에서 세계 수준의 제약 조건을 점진적으로 조절하여 지식 주입과 시각적 품질 사이의 균형을 맞추고 생성된 비디오의 아티팩트를 억제하는 학습 전략을 도입했다.
다중 소스 내부 가이드(Multi-Source Inner-Guidance)
추론 단계에서 모델이 스스로 예측한 세계 특징을 활용하여 생성 궤적을 수정함으로써 실제 세계의 법칙을 엄격히 준수하도록 유도하는 메커니즘을 구현했다.
핵심 아이디어 이해하기
기존 비디오 확산 모델은 주로 픽셀 분포를 맞추는 데 집중한다. 이는 Attention 메커니즘을 통해 프레임 간의 연관성을 계산하지만, 실제 물체가 어떻게 움직여야 하는지나 공간적 구조가 어떻게 유지되어야 하는지에 대한 깊은 이해가 부족하여 물체가 갑자기 사라지거나 물리적으로 불가능한 변형이 일어나는 한계가 있다. DreamWorld는 비디오의 잠재 벡터 공간을 확장하여 픽셀 정보뿐만 아니라 광학 흐름, 시맨틱 특징, 기하학적 제약을 동시에 예측하도록 설계했다. 이는 모델이 단순히 다음 픽셀을 맞추는 것이 아니라, 장면의 물리적 구조와 의미적 맥락을 함께 계산하도록 강제하여 세계의 작동 원리를 내면화하게 한다. 특히 여러 지식 소스를 동시에 학습할 때 발생하는 최적화 충돌 문제를 해결하기 위해 CCA를 도입했다. 학습 초기에는 물리적 제약을 강하게 주어 구조를 잡고, 후기에는 이를 서서히 줄여 시각적 디테일과 화질을 극대화함으로써 물리적 정확도와 영상미를 동시에 확보했다.
방법론
전체 접근 방식 및 데이터 전처리 단계에서는 RAFT를 이용한 Optical Flow, DINOv2의 시맨틱 특징, VGGT의 기하학적 정보를 추출하여 통합된 세계 잠재 공간 Z_world를 구축한다. 각 특징은 공간적 보간과 템포럴 풀링을 거쳐 VAE 잠재 공간과 정렬되며, PCA를 통해 채널을 압축하여 연산 효율성을 높인다. Joint World Modeling Paradigm은 기존의 비디오 잠재 벡터 z_vae와 세계 지식 벡터 Z_world를 결합하여 확장된 입력 z_t = [z_vae, Z_world]_t를 구성한다. 입력 투사 레이어는 [W_in, 0]으로 초기화되어 기존 사전 학습 모델의 동작을 유지하면서 점진적으로 세계 지식을 학습한다. Consistent Constraint Annealing(CCA)은 손실 함수에서 가중치 lambda(t)를 코사인 스케줄에 따라 조절한다. [초기 제약 강도와 현재 학습 단계를 입력으로] -> [코사인 함수를 이용해 단계가 진행됨에 따라 값이 0으로 수렴하도록 연산하여] -> [현재 단계의 손실 가중치를 얻고] -> [이 값이 작아질수록 모델이 물리적 제약보다는 시각적 화질 개선에 더 집중하게 함]으로써 최종적인 생성 품질을 보장한다.
주요 결과
VBench 벤치마크 평가 결과, DreamWorld는 총점 80.97점을 기록하여 기본 모델인 Wan2.1(76.93점)과 경쟁 모델인 VideoJAM(78.76점)을 크게 앞질렀다. 특히 모션 매끄러움과 동적 정도에서 각각 98.07점과 79.16점을 기록하며 뛰어난 동역학 이해도를 입증했다. 물리적 상식을 평가하는 VideoPhy 벤치마크에서도 시맨틱 준수 52.9%, 물리적 상식 26.2%를 달성하여 기존 SOTA 모델들을 능가했다. 이는 DreamWorld가 생성한 비디오가 단순히 시각적으로 화려할 뿐만 아니라 실제 물리 법칙에 더 가깝게 작동함을 의미한다. Ablation Study를 통해 각 구성 요소의 기여도를 분석한 결과, 템포럴 프라이어를 제거했을 때 품질 점수가 가장 크게 하락하여 시간적 일관성 확보에 핵심적인 역할을 함이 확인됐다.
기술 상세
아키텍처는 Wan2.1-T2V-1.3B를 기반으로 하며, Flow Matching 프레임워크를 채택했다. 입력 및 출력 레이어를 확장하여 16채널의 VAE 잠재 벡터와 32채널의 세계 지식 특징을 동시에 처리하는 48채널 구조를 갖는다. 학습 시에는 WISA 데이터셋의 32k 비디오 서브셋을 활용하여 8개의 NVIDIA A100 GPU에서 LoRA 파인튜닝을 수행했다. 총 2,000번의 최적화 스텝을 거치며, 480x832 해상도의 81프레임 비디오를 생성하도록 설정됐다. Multi-Source Inner-Guidance는 Classifier-free guidance를 확장한 형태로, z_pred를 계산할 때 텍스트 가이드 외에도 모션, 시맨틱, 공간 가이드를 독립적으로 조절한다. 각 가이드 가중치는 w_txt=5, w_temp=w_sem=w_spa=1로 설정되어 프롬프트 충실도와 물리적 제약 사이의 균형을 맞춘다.
한계점
현재 접근 방식은 계산 자원의 제약과 학습 데이터셋의 다양성 부족으로 인해 한계가 있다. 향후 더 다양한 데이터 큐레이션과 다중 소스 통합의 효율성 최적화 연구가 필요하다.
실무 활용
DreamWorld는 물리적으로 정확한 비디오 생성이 필요한 시뮬레이션 및 콘텐츠 제작 분야에 즉시 활용 가능하다. 특히 복잡한 상호작용이 포함된 영상 제작 시 발생하는 시각적 오류를 최소화할 수 있다.
- 물리 법칙 준수가 중요한 자율주행 학습용 가상 시나리오 생성
- 영화 및 애니메이션 제작 시 캐릭터와 환경 간의 정교한 물리적 상호작용 구현
- 로봇 조작 학습을 위한 고충실도 비디오 시뮬레이션 데이터셋 구축
- 텍스트 가이드 기반의 고품질 광고 영상 및 소셜 미디어 콘텐츠 제작
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.