핵심 요약
기존 비디오 월드 모델은 주로 단일 에이전트 환경에 국한되어 여러 주체가 동시에 상호작용하는 복잡한 현실 세계를 모사하는 데 한계가 있었다. MultiWorld는 가변적인 수의 에이전트와 카메라 시점을 지원하여 협동 로봇 공학이나 멀티플레이어 게임 시뮬레이션의 정확도를 획기적으로 높였다.
왜 중요한가
기존 비디오 월드 모델은 주로 단일 에이전트 환경에 국한되어 여러 주체가 동시에 상호작용하는 복잡한 현실 세계를 모사하는 데 한계가 있었다. MultiWorld는 가변적인 수의 에이전트와 카메라 시점을 지원하여 협동 로봇 공학이나 멀티플레이어 게임 시뮬레이션의 정확도를 획기적으로 높였다.
관련 Figure

입력된 초기 시점과 프레임별 행동 명령에 따라 여러 에이전트가 상호작용하는 일관된 다중 시점 영상을 생성함을 보여준다. 게임과 로봇 시뮬레이션 모두에서 높은 시각적 품질과 행동 제어력을 확인할 수 있다.
MultiWorld가 생성한 멀티플레이어 게임 및 멀티 로봇 조작 비디오 예시
핵심 기여
MultiWorld 통합 프레임워크 제안
다중 에이전트와 다중 시점을 동시에 지원하며 에이전트 수와 시점 수에 따라 유연하게 확장 가능한 비디오 월드 모델 아키텍처를 구축했다.
Multi-Agent Condition Module(MACM) 도입
Agent Identity Embedding(AIE)과 Adaptive Action Weighting(AAW)을 통해 여러 에이전트의 행동을 개별적으로 식별하고 동적인 변화에 집중하여 제어력을 높였다.
Global State Encoder(GSE)를 통한 시점 일관성 확보
여러 부분 관측치를 3D 인식 가능한 전역 환경 상태로 압축하여 서로 다른 카메라 각도에서도 물리적으로 일관된 비디오를 생성한다.
핵심 아이디어 이해하기
기존의 Transformer 기반 비디오 생성 모델은 여러 에이전트의 행동 데이터를 단순히 나열(stacking)하여 입력할 경우, 어떤 행동이 어떤 주체에 속하는지 구분하지 못하는 'ID 혼동' 문제에 직면한다. 이는 마치 여러 명의 명령어가 섞여 누구의 팔을 움직여야 할지 모르는 상태와 같다. MultiWorld는 Rotary Position Embedding(RoPE) 개념을 활용한 Agent Identity Embedding을 도입하여 각 행동 토큰에 고유한 주체 정보를 주입함으로써 이 대칭성을 깨뜨린다.
또한, 모든 에이전트가 항상 움직이는 것은 아니므로 정적인 에이전트보다 환경 변화를 주도하는 활성 에이전트에 더 많은 가중치를 부여하는 Adaptive Action Weighting 메커니즘을 적용했다. 이를 통해 모델은 수많은 입력 신호 중 실제 환경 변화를 일으키는 핵심 동인에 집중할 수 있게 된다.
마지막으로, 서로 다른 위치에서 촬영된 영상들이 하나의 일관된 세계를 공유하도록 하기 위해 VGGT와 같은 3D 재구성 모델을 활용한다. 개별 시점의 데이터를 독립적으로 처리하는 대신, 모든 시점의 정보를 하나의 전역 상태(Global State)로 모았다가 다시 각 시점으로 분배하는 구조를 취함으로써 물리적 모순이 없는 다중 시점 시뮬레이션을 가능케 했다.
방법론
MultiWorld는 Flow Matching(FM) 기법과 Transformer 백본을 기반으로 설계되었다. 전체 시스템은 크게 행동 제어를 담당하는 MACM, 환경 일관성을 유지하는 GSE, 그리고 실제 비디오를 생성하는 DiT(Diffusion Transformer) 백본으로 구성된다.
MACM에서는 각 에이전트 i의 행동 latent a_i에 회전 행렬 R_θ,i를 곱하는 [a_i → R_θ,i * a_i → AIE(a_i, i)] 연산을 수행한다. 이 연산은 각 에이전트에게 고유한 위상 정보를 부여하여 모델이 주체별 행동을 명확히 구분하게 하며, 학습 시 보지 못한 수의 에이전트가 등장해도 외삽(extrapolation)을 통해 대응할 수 있게 한다.
GSE는 C개의 다중 시점 이미지 O={O_c}를 입력받아 VGGT 백본을 통해 [O → VGGT(O) → H_vggt] 과정을 거쳐 잠재 특징을 추출한다. 이후 MLP를 통해 [H_vggt → MLP → H] 연산을 수행하여 DiT 백본의 차원과 일치시킨다. 이 H 값은 모든 시점 생성 과정에서 Cross-Attention의 Key와 Value로 사용되어, 서로 다른 각도에서도 동일한 3D 환경 정보를 참조하도록 강제한다.
추론 시에는 Autoregressive 전략을 채택하여, 생성된 비디오 청크의 마지막 프레임을 다시 GSE의 입력으로 넣어 전역 환경 상태를 갱신한다. 이를 통해 학습 컨텍스트 길이를 넘어서는 장기 시뮬레이션에서도 물리적 일관성을 유지한다.
관련 Figure

MACM(행동 제어), GSE(환경 상태 인코딩), 그리고 확장 가능한 DiT 기반 프레임워크의 연결 구조를 상세히 설명한다. 부분 관측치가 VGGT를 거쳐 전역 상태로 통합되고, 이것이 각 시점 생성에 어떻게 기여하는지 시각화한다.
MultiWorld의 전체 파이프라인 구조도
주요 결과
It Takes Two 게임 데이터셋 실험에서 MultiWorld는 FVD 179를 기록하여 기존 Standard 모델(245)이나 COMBO(207) 대비 시각적 품질이 크게 향상되었다. 특히 행동 일치도(Action Accuracy)에서 89.8%를 달성하여 에이전트 제어 성능이 가장 우수함을 입증했다.
로봇 조작 시뮬레이션(RoboFactory) 환경에서도 FVD 96, PSNR 26.60을 기록하며 모든 지표에서 베이스라인을 압도했다. 시점 간 기하학적 일관성을 측정하는 Reprojection Error(RPE)는 1.52로 나타나, 다중 시점 일관성이 효과적으로 유지됨을 확인했다.
Ablation Study 결과, MACM은 행동 제어력을 높이고 GSE는 시점 일관성을 개선하는 데 결정적인 역할을 수행함이 밝혀졌다. 특히 VGGT 백본을 사용했을 때 DINOv2나 일반 VAE를 사용했을 때보다 RPE가 0.67(게임 데이터 기준)로 가장 낮게 나타나 3D 인식 능력의 중요성을 증명했다.
관련 Figure

기존 모델(Single-View, Concat-View, COMBO)들이 겪는 에이전트 소멸이나 시점 불일치 문제를 MultiWorld가 어떻게 해결했는지 정성적으로 비교한다. 빨간색 상자로 표시된 실패 사례들과 대비되는 MultiWorld의 정확성을 보여준다.
다양한 모델 간의 다중 에이전트 비디오 생성 품질 비교
기술 상세
MultiWorld 아키텍처는 가변적인 입력(에이전트 수 K, 시점 수 C)을 처리하기 위해 고정된 입력 차원 대신 토큰 기반의 유연한 구조를 채택했다. MACM은 RoPE를 에이전트 차원에 적용하여 상대적 위치 정보를 보존하며, 이는 다중 에이전트 간의 상호작용을 Self-Attention으로 모델링할 때 효율적이다.
GSE는 사전 학습된 3D 재구성 모델인 VGGT를 고정(frozen) 상태로 사용하여 효율적인 특징 추출을 수행한다. 추출된 3D 인식 특징은 DiT 블록 내부의 Environment Cross-Attention 레이어를 통해 주입된다. 생성 프로세스는 Flow Matching 목적 함수를 사용하여 학습되며, 추론 시에는 Euler solver를 통해 노이즈로부터 비디오를 샘플링한다.
장기 시뮬레이션을 위해 도입된 Autoregressive 생성 방식은 이전 청크의 마지막 프레임을 GSE에 다시 입력하여 '암시적 3D 월드'를 지속적으로 업데이트한다. 이는 명시적인 3D 포인트 클라우드를 생성하지 않고도 잠재 공간 내에서 일관된 환경 변화를 추적할 수 있게 한다.
한계점
현재 MultiWorld의 성능은 입증되었으나 학습 규모가 여전히 제한적이다. 계산 자원의 제약으로 인해 대규모 데이터셋에서의 학습은 아직 탐구되지 않은 영역으로 남아 있다. 또한 에이전트가 화면에서 아주 작게 나타날 경우 해상도 한계로 인해 형태가 모호해지는 현상이 발생한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.