Solaris: 마인크래프트에서의 멀티플레이어 비디오 월드 모델 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 월드 모델은 1인칭 시점에 국한되어 다수의 에이전트가 상호작용하는 복잡한 환경을 모사하지 못했다. Solaris는 여러 플레이어의 시점을 동시에 생성하고 일관성을 유지함으로써, AI 에이전트가 타인의 행동을 이해하고 협력하는 능력을 학습할 수 있는 가상 환경을 제공한다.

왜 중요한가

핵심 기여

SolarisEngine 데이터 수집 시스템

마인크래프트에서 다수 봇의 행동과 시각 정보를 동기화하여 자동 수집하는 확장 가능한 Docker 기반 시스템을 구축했다.

대규모 멀티플레이어 데이터셋 공개

건축, 전투, 채광 등 다양한 시나리오를 포함하는 1,264만 프레임 규모의 행동 주석 기반 멀티플레이어 비디오 데이터셋을 제작했다.

Checkpointed Self Forcing 기법

긴 시퀀스 학습 시 발생하는 중복 메모리 점유를 그래디언트 체크포인팅 원리로 해결하여 메모리 효율적인 자기회귀 학습을 가능하게 했다.

다단계 학습 파이프라인 설계

단일 플레이어에서 멀티플레이어로, 양방향에서 인과적 모델로 점진적으로 전이하는 4단계 학습 전략을 통해 모델 성능을 최적화했다.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 주로 단일 시점의 비디오를 생성하는 데 집중했다. 하지만 현실 세계는 여러 주체가 동시에 상호작용하며, 한 명의 행동이 다른 모든 이의 시야에 즉각 반영되어야 한다. 기존의 Self-Attention 기반 모델은 시퀀스 길이가 길어질수록 연산량이 제곱으로 늘어나 여러 명의 시점과 긴 시간을 동시에 다루기 어려웠다.

Solaris는 DiT(Diffusion Transformer) 아키텍처를 확장하여 여러 플레이어의 시각 토큰을 교차 배치하고, 공유된 Self-Attention 층을 통해 정보를 교환한다. 특히 Checkpointed Self Forcing 기법을 도입해, 모델이 자신의 과거 생성물을 참고해 학습할 때 발생하는 중복 메모리 점유 문제를 해결했다. 이는 학생 모델이 생성한 노이즈 상태를 캐싱하고 역전파 시에만 재계산하는 방식으로 메모리 효율을 극대화한다.

이를 통해 모델은 단순히 픽셀을 생성하는 것을 넘어, 내가 블록을 쌓으면 상대방의 화면에도 그 블록이 보여야 한다는 물리적 및 공간적 일관성을 학습한다. 이는 AI 에이전트가 복잡한 3D 환경에서 타인과 협동하거나 경쟁하는 시뮬레이션의 핵심 토대가 된다.

방법론

SolarisEngine은 Docker 기반의 컨테이너화된 환경에서 마인크래프트 서버와 다수의 봇을 운영한다. Mineflayer 라이브러리를 확장해 봇 간 통신 레이어를 구축하고, 고수준의 행동 프리미티브를 조합해 현실적인 멀티플레이어 시나리오를 자동 생성한다. 각 봇은 카메라 봇과 쌍을 이루어 GPU 가속 렌더링을 통해 시각 정보를 기록하며, 타임스탬프를 기준으로 행동과 영상을 정렬한다.

아키텍처는 Matrix Game 2.0을 기반으로 하며, 플레이어 차원(P)을 추가한 (P, H, W, C) 형태의 텐서를 처리한다. 각 플레이어의 토큰에 고유한 Player ID 임베딩을 더하고 3D RoPE를 적용해 공간적 정보를 구분한다. 학습은 Flow Matching 손실 함수를 사용하며, [현재 상태 x_t와 목표 상태 x_1이 주어질 때] → [두 지점을 잇는 직선 경로의 벡터장 v_t를 계산하여] → [모델이 이 벡터장을 예측하도록 학습하고] → [이를 통해 효율적인 샘플링을 수행하는] 원리로 작동한다.

Checkpointed Self Forcing은 자기회귀 롤아웃 단계에서 그래디언트 계산 없이 중간 상태를 캐싱한다. [학생 모델의 컨텍스트 길이 Ls와 전체 생성 길이 Lt가 주어질 때] → [슬라이딩 윈도우 방식으로 생성된 프레임들을 메모리에 유지하는 대신] → [중간 노이즈 상태만 저장했다가 역전파 시 단일 병렬 패스로 재계산하여] → [메모리 복잡도를 O(Lt * Ls)에서 O(Lt)로 획기적으로 줄인다.]

주요 결과

VLM-as-a-judge 평가 방식을 도입해 이동, 접지, 기억, 건축, 일관성 5개 항목을 측정했다. Solaris는 기존의 채널 결합 방식이나 사전 학습 없는 모델 대비 모든 지표에서 우수한 성능을 보였으며, 특히 건축과 시점 일관성 지표에서 각각 20.8%와 71.4%의 높은 정확도를 기록하며 경쟁 모델을 압도했다.

FID 측정 결과 Solaris는 38.0~38.5 수준을 기록해 비교 모델인 Frame concat(68.9)보다 시각적 품질이 월등히 높음을 입증했다. 장기 생성 실험에서도 224프레임 동안 텍스처 붕괴 없이 안정적인 비디오를 생성하는 능력을 보여주었다.

Ablation Study를 통해 KV 캐시 백프로파게이션(KV-BP)의 중요성을 확인했다. KV-BP를 활성화했을 때 FID가 60.3에서 38.5로 대폭 개선되어, 모델이 과거의 키-값 표현을 직접 최적화하는 것이 시각적 품질 향상에 핵심적인 역할을 함이 확인됐다.

기술 상세

Solaris는 DiT 블록 내에서 시각적 인터리빙을 통해 멀티플레이어 정보를 교환한다. 배치(B), 플레이어(P), 시간(T), 토큰(M) 차원을 (B, P*T, M)으로 재구성하여 공유 Attention 구조에서 에이전트 간 상호작용을 모델링한다. 이는 각 플레이어가 서로의 시점 정보를 참조하여 일관된 세계 상태를 유지하게 한다.

Diffusion Forcing 기법을 채택하여 프레임별로 독립적인 노이즈 레벨을 샘플링한다. 이는 자기회귀 생성 시 발생하는 오류 누적 문제를 완화하며, 학습 시에도 추론 환경과 유사한 노이즈 분포를 제공하여 모델의 강건성을 높인다.

Checkpointed Self Forcing은 메모리 효율성을 극대화하기 위해 그래디언트 체크포인팅을 자기회귀 롤아웃에 적용했다. 생성 단계에서는 그래디언트 계산을 중단하고 클린 추정치와 노이즈 상태만 저장한 뒤, 학습 단계에서 커스텀 Teacher Forcing 마스크를 사용해 병렬로 연산함으로써 긴 시퀀스 학습의 병목을 제거했다.

VLM-as-a-judge 평가는 GPT-4o와 같은 멀티모달 모델을 활용하여 생성된 비디오의 논리적 타당성을 검증한다. 플레이어의 이동 방향이나 특정 구조물의 존재 여부에 대해 검증 가능한 질문을 던지고, 모델의 답변이 정답과 일치하는지 확인하여 정량적인 성능 지표를 산출한다.

한계점

현재 학습 데이터가 전적으로 합성 데이터로 구성되어 있어 실제 인간의 복잡한 행동 분포를 완벽히 반영하지 못할 수 있다. 또한 플레이어가 서로의 시야에서 사라질 경우 공유된 컨텍스트를 잃어버리는 등 장기적인 영속적 메모리 유지에 한계가 존재한다.

실무 활용

멀티플레이어 환경에서의 AI 에이전트 학습을 위한 고품질 합성 데이터 생성기로 활용 가능하다. 또한 복잡한 3D 공간 이해가 필요한 로보틱스나 협업 툴 개발의 시뮬레이션 환경 구축에 기여할 수 있다.

멀티 에이전트 강화학습을 위한 가상 훈련 환경 및 합성 데이터 생성
비디오 게임 내 지능형 NPC의 협업 및 상호작용 행동 시뮬레이션
다수 시점 비디오의 일관성 유지를 위한 생성 AI 모델 연구 및 벤치마킹
마인크래프트 기반의 복잡한 3D 환경 이해 및 계획 수립 AI 학습

코드 공개 여부: 공개

코드 저장소 보기

키워드

Video World Model(비디오 월드 모델)Multi-agent Interaction(다중 에이전트 상호작용)Self Forcing(셀프 포싱)Minecraft(마인크래프트)Diffusion Transformer(확산 트랜스포머)