WorldCam: 카메라 포즈를 통합 기하학적 표현으로 활용한 대화형 자기회귀 3D 게임 월드 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 게임 월드 모델은 사용자 입력을 추상적인 신호로 처리하여 3D 구조가 깨지거나 조작이 부정확한 문제가 있었다. 이 논문은 카메라의 위치와 방향(Pose)을 핵심 매개체로 삼아, 사용자의 움직임을 물리적으로 정확하게 반영하고 이전에 방문했던 장소를 다시 가더라도 지형이 변하지 않는 일관된 가상 세계를 구현한다.

왜 중요한가

핵심 기여

Lie Algebra 기반 정밀 액션 매핑

키보드와 마우스 입력을 se(3) Lie algebra 상의 twist vector로 모델링하여, 이동과 회전이 결합된 복잡한 나선형 운동(Screw Motion)을 물리적으로 정확하게 계산하고 6-DoF 카메라 포즈로 변환함.

포즈 앵커 기반 장기 기억 장치

생성된 영상의 잠재 벡터를 카메라 포즈와 함께 저장하고, 유사한 위치 방문 시 이를 검색하여 참조함으로써 수 분 이상의 긴 시간 흐름 속에서도 장소의 3D 일관성을 유지함.

점진적 자기회귀 추론 및 안정화 기법

프레임별로 노이즈 수준을 다르게 설정하는 점진적 스케줄링과 Attention Sink 메커니즘을 도입하여, 긴 영상 생성 시 발생하는 화질 저하와 스타일 왜곡 문제를 해결함.

대규모 WorldCam-50h 데이터셋 구축

3,000분 분량의 실제 게임 플레이 영상에 정밀한 카메라 궤적과 텍스트 설명을 주석으로 추가한 데이터셋을 구축하여 인터랙티브 월드 모델 연구의 재현성을 높임.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 사용자의 조작(Action)을 단순한 조건부 텍스트나 벡터로 처리했다. 이는 마치 화가에게 '오른쪽으로 가라'고 말만 하고 그림을 그리게 하는 것과 같아서, 실제 3D 공간에서의 물리적 이동 거리나 회전 각도가 무시되어 화면이 왜곡되거나 이전에 본 풍경이 달라지는 한계가 있었다.

WorldCam은 모든 조작을 '카메라의 위치와 방향 변화'라는 명확한 기하학적 수치로 변환한다. 특히 회전과 이동이 동시에 일어나는 복잡한 움직임을 Lie algebra라는 수학적 도구로 통합 관리하여, 단순 선형 근사 방식에서 발생하는 궤적 오차를 극적으로 줄이고 물리 법칙에 맞는 화면 전환을 유도한다.

또한, 생성된 모든 장면을 지도상의 좌표(Camera Pose)와 함께 메모리에 저장한다. 사용자가 다시 같은 위치로 돌아오면 모델은 메모리에서 과거의 데이터를 찾아 현재 생성 중인 프레임과 연결(Attention)함으로써, 수 분이 지난 후에도 건물의 위치나 지형이 그대로 유지되는 공간 일관성을 확보한다.

방법론

전체 아키텍처는 Video Diffusion Transformer(DiT)를 기반으로 하며, 사용자 액션을 카메라 포즈로 변환하는 모듈, 포즈를 임베딩하여 DiT에 주입하는 모듈, 그리고 과거 정보를 참조하는 메모리 시스템으로 구성된다.

액션 매핑 단계에서는 사용자 입력 Ai를 se(3) 상의 twist vector [vi; ωi]로 정의한다. [6자유도 속도 값을 입력으로] → [행렬 지수 사상 exp(Âi) 연산을 수행해] → [상대적 포즈 변화량 ΔPi를 얻고] → [이 값은 이동과 회전이 결합된 물리적 궤적을 의미한다].

메모리 시스템은 계층적 검색 방식을 사용한다. [현재 카메라 위치 ti를 입력으로] → [과거 메모리 풀 M과의 L2 거리를 계산해] → [가장 가까운 상위 K개의 후보를 선별하고] → [그중 시선 방향 Ri가 가장 일치하는 L개의 잠재 벡터를 최종 선택하여 현재 생성 과정에 결합한다].

추론 시에는 Progressive Noise Scheduling을 적용한다. [한 윈도우 내의 프레임 인덱스를 입력으로] → [뒤로 갈수록 높은 노이즈 레벨을 할당하여] → [앞 프레임이 뒤 프레임 생성의 안정적인 닻(Anchor) 역할을 하도록 유도하고] → [이를 통해 장기적인 영상 생성의 안정성을 확보한다].

주요 결과

액션 제어 성능 평가에서 기존 SOTA 모델인 GameCraft 대비 카메라 포즈 오차(RPE_camera)를 약 16.3% 개선했으며, 특히 회전 오차(RPE_rot)를 1.146도에서 0.696도로 낮추어 정밀한 조작 성능을 입증했다.

시각적 품질 면에서도 VBench++ 평균 점수 0.844를 기록하여 2위 모델(0.781) 대비 약 8.1% 높은 성능을 보였다. 이는 점진적 노이즈 스케줄링과 Attention Sink 도입으로 인해 긴 시간 동안의 화질 저하를 효과적으로 억제했기 때문이다.

3D 일관성 실험에서 PSNR 16.69, DINO Similarity 0.8884를 달성했다. 특히 Sharpness 지표에서 656점을 기록하여, 장기 기억 장치가 없는 모델들이 시간이 지남에 따라 화면이 흐릿해지거나 지형을 잃어버리는 문제를 해결했음을 확인했다.

기술 상세

WorldCam은 Wan-2.1-T2V를 백본으로 사용하는 비디오 DiT 구조를 채택했다. VAE를 통해 압축된 잠재 공간에서 연산하며, 카메라 포즈는 Plücker 임베딩으로 변환되어 각 Self-Attention 레이어 직후에 MLP를 거쳐 특징 맵에 더해진다.

액션 제어의 핵심인 se(3) 공식화는 단순 선형 보간이 회전 시 발생하는 궤적 드리프트를 방지하기 위해 도입되었다. 행렬 지수 함수를 통해 이동과 회전을 동시에 적분함으로써 기하학적 엄밀성을 확보했으며, 이는 특히 커브 주행과 같은 복잡한 움직임에서 높은 정확도를 보인다.

메모리 검색 시에는 위치 거리뿐만 아니라 회전 행렬의 Trace 값을 이용한 방향 정렬도 고려한다. 이는 복잡한 실내 구조에서 벽 너머의 공간이 아닌, 현재 사용자가 실제로 바라보는 방향의 과거 데이터를 정확히 참조하여 시각적 연속성을 보장하기 위함이다.

장기 추론의 안정성을 위해 StreamingLLM에서 영감을 받은 Attention Sink를 도입했다. 생성 초기 프레임의 토큰들을 고정적인 참조점으로 유지함으로써, 자기회귀 생성 과정에서 발생할 수 있는 스타일 전이나 UI 왜곡 현상을 효과적으로 억제한다.

한계점

현재 모델은 추론 효율성 측면에서 한계가 있다. 증류(Distillation) 기법을 적용하지 않아 실시간 상호작용을 위한 속도 개선이 필요하며, 정적인 환경 위주로 학습되어 동적인 객체가 포함된 환경에서의 일관성 유지는 향후 과제로 남아 있다.

실무 활용

실시간 조작이 가능한 고품질 가상 세계 생성 모델로, 게임 엔진 없이도 플레이 가능한 환경을 구축하거나 로봇 시뮬레이션용 합성 데이터를 생성하는 데 유용하다.

AI 기반 인터랙티브 게임 엔진 및 가상 환경 개발
로봇 자율 주행 학습을 위한 물리적 일관성이 확보된 합성 데이터 생성
건축 및 인테리어 디자인의 실시간 3D 가상 워크스루 구현
영화 제작 시 가상 카메라 조작을 통한 장면 프리비즈(Pre-visualization) 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

World Model(월드 모델)Video Diffusion Transformer(비디오 확산 트랜스포머)3D Consistency(3D 일관성)Camera Pose(카메라 포즈)Lie Algebra(리 대수)