핵심 요약
기존의 비디오 생성 모델은 긴 시간 동안 일관성을 유지하기 어렵거나 실시간 상호작용이 불가능한 한계가 있었다. 이 논문은 Unreal Engine 기반의 대규모 데이터 엔진과 메모리 증강 기술을 통해 720p 고해상도 영상을 실시간(40 FPS)으로 생성하면서도 분 단위의 긴 시간 동안 일관된 세계를 유지하는 방법을 제시한다.
왜 중요한가
기존의 비디오 생성 모델은 긴 시간 동안 일관성을 유지하기 어렵거나 실시간 상호작용이 불가능한 한계가 있었다. 이 논문은 Unreal Engine 기반의 대규모 데이터 엔진과 메모리 증강 기술을 통해 720p 고해상도 영상을 실시간(40 FPS)으로 생성하면서도 분 단위의 긴 시간 동안 일관된 세계를 유지하는 방법을 제시한다.
핵심 기여
산업 규모의 무한 데이터 엔진 구축
Unreal Engine 5를 활용하여 10억 개 이상의 캐릭터 변종과 정밀한 액션-카메라 포즈가 동기화된 고품질 합성 데이터를 생성하는 시스템을 개발했다.
카메라 인식 메모리 검색 및 주입 메커니즘
과거의 프레임을 카메라 포즈 기반으로 검색하여 현재 생성 과정에 주입함으로써, 이전에 방문했던 장소로 돌아왔을 때 지형과 사물이 그대로 유지되는 장기 일관성을 확보했다.
에러 인식 학습 프레임워크
생성 과정에서 발생하는 미세한 오차(Residual)를 에러 버퍼에 저장하고 학습 시 의도적으로 주입하여, 모델이 스스로 오류를 수정하고 드리프트를 방지하도록 설계했다.
다단계 자기회귀 증류 및 가속화
DMD 기반의 증류 기법과 INT8 양자화, VAE 디코더 프루닝을 결합하여 5B 모델 기준 720p 해상도에서 최대 40 FPS의 추론 속도를 달성했다.
핵심 아이디어 이해하기
비디오 생성 모델이 긴 시간 동안 일관성을 유지하지 못하는 근본적인 이유는 생성된 프레임의 미세한 오차가 다음 프레임 생성 시 계속 누적되는 '노출 편향(Exposure Bias)' 문제 때문이다. Transformer 기반의 모델은 이전 토큰들을 참조하여 다음을 예측하지만, 시퀀스가 길어질수록 과거의 정보를 잊거나 물리적 구조가 무너지는 현상이 발생한다.
Matrix-Game 3.0은 이를 해결하기 위해 두 가지 핵심 전략을 사용한다. 첫째, '에러 버퍼'를 도입하여 학습 단계에서 모델이 완벽한 데이터뿐만 아니라 의도적으로 오염된 데이터를 접하게 함으로써 스스로 오차를 보정하는 능력을 갖추게 한다. 이는 Gradient Descent 과정에서 모델이 정답과의 차이뿐만 아니라 생성 과정의 불안정성까지 학습하도록 유도하는 원리이다.
둘째, '카메라 인식 메모리'를 통해 과거의 시각적 정보를 명시적으로 참조한다. 사용자가 조작하는 카메라의 위치와 방향을 기준으로 가장 관련 있는 과거 프레임을 검색하여 Attention Mechanism의 입력으로 함께 넣어준다. 이를 통해 모델은 수천 프레임 전의 정보를 다시 계산할 필요 없이, 메모리에서 꺼내온 앵커 데이터를 바탕으로 공간적 구조를 정확히 재현할 수 있게 된다.
방법론
전체 시스템은 Unreal Engine 기반의 데이터 엔진, 메모리 증강 DiT 모델, 그리고 실시간 추론을 위한 증류 및 가속화 모듈로 구성된다. 데이터 엔진은 UE5의 Nanite와 Lumen 기술을 사용하여 물리적으로 정확한 조명과 기하학적 구조를 가진 영상을 생성하며, 모든 프레임에 대해 정확한 6-DoF 카메라 포즈와 사용자 입력을 동기화하여 기록한다.
핵심 모델 아키텍처는 통합된 DiT(Diffusion Transformer) 백본을 사용한다. [과거 프레임, 검색된 메모리 프레임, 노이즈가 섞인 현재 프레임]을 입력으로 받아 단일 Attention 공간에서 정보를 교환한다. 이때 카메라 포즈 간의 상대적 기하학적 관계를 Plücker 좌표계로 인코딩하여 주입함으로써, 모델이 시점 변화에 따른 시각적 변화를 수학적으로 이해하도록 돕는다.
학습 시에는 SVI(Self-correcting Video Iteration) 스타일의 에러 주입 기법을 적용한다. [예측된 프레임 - 실제 프레임]으로 계산된 잔차(Residual) δ를 에러 버퍼에 저장하고, 다음 학습 단계에서 입력값 x에 γδ만큼의 노이즈를 더해 주입한다. 이를 통해 모델은 불완전한 과거 정보로부터 정확한 미래를 복구하는 강건성을 학습한다.
추론 가속화를 위해 DMD(Distribution Matching Distillation)를 다중 세그먼트 자기회귀 구조에 맞게 변형하여 적용했다. 또한 VAE 디코더의 숨겨진 차원을 줄이는 프루닝을 통해 디코딩 속도를 5.2배 향상시켰으며, DiT의 Attention 투영 레이어에 INT8 양자화를 적용하여 연산 효율을 극대화했다.
주요 결과
5B 파라미터 모델을 사용하여 720p 해상도에서 최대 40 FPS의 실시간 생성을 달성했다. 이는 기존의 유사 모델들이 수 FPS 수준에 머물렀던 것과 비교해 획기적인 속도 향상이다. 특히 GPU 기반의 메모리 검색 기술을 도입하여 검색 시간을 CPU 대비 대폭 단축함으로써 실시간성을 확보했다.
장기 일관성 실험에서는 사용자가 이전에 방문했던 장소로 다시 돌아오는 'Scene Revisitation' 시나리오를 테스트했다. 메모리 메커니즘이 없는 모델은 돌아왔을 때 배경이 완전히 변해버리는 반면, Matrix-Game 3.0은 수십 초 전의 세부적인 건물 구조와 텍스처를 정확하게 복원하는 것으로 나타났다.
모델 확장성 측면에서 MoE-28B 백본으로 확장했을 때, 더 풍부한 물리적 역동성과 세밀한 질감 표현이 가능해졌으며 일반화 성능이 크게 향상됨을 확인했다. 정량적 평가에서 50% 프루닝된 MG-LightVAE는 원본 대비 PSNR 31.84, SSIM 0.99를 유지하면서도 디코딩 시간을 0.76초에서 0.30초로 단축했다.
기술 상세
Matrix-Game 3.0의 아키텍처는 Bidirectional DiT를 기반으로 하며, 추론 시에는 Causal Autoregressive 방식으로 동작한다. 학습과 추론 사이의 괴리를 줄이기 위해 Multi-segment Self-generated Inference 스키마를 도입하여, 학생 모델이 여러 세그먼트를 스스로 생성하며 교사 모델의 분포를 따라가도록 DMD 손실 함수를 최적화했다.
메모리 검색 시에는 Frustum Overlap Score를 사용하여 현재 시야와 가장 많이 겹치는 과거 프레임을 선택한다. GPU 구현에서는 샘플링 기반 근사 방식을 사용하여 3D 교차 연산 비용을 줄였다. 또한 RoPE(Rotary Positional Encoding)에 헤드별 섭동(Head-wise Perturbation)을 가해 장거리 메모리 참조 시 발생할 수 있는 주기적 위치 모호성 문제를 해결했다.
데이터 시스템 측면에서는 UE5의 NavMesh와 RL 에이전트를 결합하여 사람이 개입하지 않고도 복잡한 지형을 탐색하며 데이터를 수집하는 자동화 파이프라인을 구축했다. 수집된 데이터는 InternVL3.5-8B를 통해 4단계 계층 구조(전체 요약, 정적 장면, 동적 템포럴, 품질 점수)로 자동 주석화되어 학습의 질을 높였다.
한계점
논문은 1인칭과 3인칭 시점의 역동성을 동시에 모델링하는 것이 어렵다는 점을 언급하며, 이를 해결하기 위해 시점별로 특화된 고노이즈 모델을 별도로 학습시켜야 했다고 밝혔다. 또한 더 복잡한 상호작용과 더 긴 시간의 의존성을 처리하기 위한 고도화된 메모리 메커니즘이 여전히 필요함을 시사했다.
실무 활용
이 연구는 고해상도 상호작용형 가상 세계를 실시간으로 구현해야 하는 게임 개발, 로봇 시뮬레이션, XR(확장 현실) 분야에 즉시 적용 가능한 기술적 토대를 제공한다.
- AI 기반 오픈 월드 게임 엔진: 플레이어의 행동에 따라 실시간으로 변화하면서도 과거의 장소를 기억하는 무한한 게임 월드 생성
- 로봇 자율 주행 시뮬레이터: 다양한 환경과 액션에 따른 물리적 반응을 실시간으로 시뮬레이션하여 로봇 학습 데이터 생성
- 대화형 가상 관광 및 교육: 사용자의 조작에 따라 고해상도 3D 공간을 탐험하는 실시간 스트리밍 서비스
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.