핵심 요약
비디오 생성 분야의 인상적인 발전에도 불구하고, 기존 모델들은 여전히 표면적인 그럴듯함에 머물러 있으며 세계에 대한 일관되고 통합된 이해가 부족합니다. 이전의 접근 방식들은 대개 단일 형태의 세계 관련 지식만을 포함하거나, 추가 지식을 도입하기 위해 경직된 정렬 전략에 의존했습니다. 그러나 단일 세계 지식을 정렬하는 것만으로는 물리적 상식, 3D 및 시간적 일관성 등 여러 이질적인 차원을 공동으로 모델링해야 하는 세계 모델을 구성하기에 불충분합니다. 이러한 한계를 해결하기 위해, 본 논문은 보완적인 세계 지식을 비디오 생성기에 통합하는 통합 프레임워크인 드림월드(DreamWorld)를 소개합니다. 드림월드는 공동 세계 모델링 패러다임(Joint World Modeling Paradigm)을 통해 비디오 픽셀과 파운데이션 모델(Foundation Model)의 특징을 공동으로 예측함으로써 시간적 역동성(Temporal Dynamics), 공간적 기하학(Spatial Geometry), 그리고 시맨틱 일관성(Semantic Consistency)을 포착합니다. 하지만 이러한 이질적인 목표들을 단순히 최적화하면 시각적 불안정성과 시간적 깜빡임(Temporal Flickering)이 발생할 수 있습니다. 이를 완화하기 위해 학습 과정에서 세계 수준의 제약 조건을 점진적으로 조절하는 일관된 제약 조건 어닐링(Consistent Constraint Annealing, CCA)과 추론 시 학습된 세계 사전 지식을 강제하는 다중 소스 내부 가이드(Multi-Source Inner-Guidance)를 제안합니다. 광범위한 평가 결과, 드림월드는 세계 일관성을 향상시켜 VBench에서 Wan2.1보다 2.26점 높은 성능을 기록했습니다.
핵심 기여
공동 세계 모델링 패러다임(JWMP) 도입
비디오 픽셀 예측과 함께 파운데이션 모델의 특징을 동시에 예측하여 시간, 공간, 시맨틱 정보를 통합적으로 학습하는 구조를 설계했습니다.
일관된 제약 조건 어닐링(CCA) 제안
학습 초기에는 픽셀 생성에 집중하고 점진적으로 세계 모델링 제약 조건을 강화하여 이질적인 학습 목표 간의 충돌을 방지하고 시각적 안정성을 확보했습니다.
다중 소스 내부 가이드(Multi-Source Inner-Guidance) 구현
추론 단계에서 학습된 세계 사전 지식을 활용하여 생성되는 비디오의 물리적, 기하학적 일관성을 실시간으로 보정하는 메커니즘을 적용했습니다.
방법론
드림월드는 공동 세계 모델링 패러다임(Joint World Modeling Paradigm)을 기반으로 비디오 확산 모델(Video Diffusion Model)이 픽셀뿐만 아니라 사전 학습된 모델의 특징 맵을 함께 재구성하도록 학습합니다. 학습 안정성을 위해 일관된 제약 조건 어닐링(CCA) 기법을 사용하여 손실 함수(Loss Function)의 가중치를 동적으로 조절하며, 추론 시에는 내부 가이드 메커니즘을 통해 다중 소스의 지식을 통합합니다.
주요 결과
VBench 벤치마크에서 종합 점수 기준으로 기존의 강력한 모델인 Wan2.1 대비 2.26점 높은 성과를 기록하며 세계 일관성(World Consistency) 측면에서 우수성을 입증했습니다. 특히 물리적 상식과 3D 기하학적 정확도 지표에서 유의미한 향상을 보였습니다.
시사점
비디오 생성 모델이 단순한 픽셀 나열을 넘어 물리 법칙과 공간 구조를 이해하는 세계 모델로 진화하는 구체적인 방법론을 제시합니다. 이는 자율 주행 시뮬레이션이나 로보틱스 학습을 위한 고품질 가상 환경 구축에 직접적으로 활용될 수 있으며, 생성된 영상의 시간적 일관성 문제를 해결하는 실무적 가이드라인을 제공합니다.
키워드
섹션별 상세
공동 세계 모델링 패러다임(JWMP) 도입
일관된 제약 조건 어닐링(CCA) 제안
다중 소스 내부 가이드(Multi-Source Inner-Guidance) 구현
AI 요약 · 북마크 · 개인 피드 설정 — 무료