핵심 요약
기존의 행동 조건부 비디오 생성 모델(action-conditioned video generation models), 즉 비디오 월드 모델(video world models)은 단일 에이전트 관점에 국한되어 실제 환경의 다중 에이전트 상호작용(multi-agent interactions)을 포착하지 못하는 한계가 있습니다. 우리는 일관된 다중 시점 관측을 시뮬레이션하는 멀티플레이어 비디오 월드 모델인 솔라리스(Solaris)를 소개합니다. 이를 가능하게 하기 위해 마인크래프트(Minecraft)와 같은 비디오 게임에서 견고하고 지속적이며 자동화된 데이터 수집을 위해 설계된 멀티플레이어 데이터 시스템을 개발했습니다. 단일 플레이어 설정에 맞춰진 이전 플랫폼들과 달리, 우리의 시스템은 조정된 다중 에이전트 상호작용과 동기화된 비디오 및 행동 캡처를 지원합니다. 이 시스템을 사용하여 1,264만 개의 멀티플레이어 프레임을 수집했으며, 멀티플레이어 이동, 기억, 그라운딩(grounding), 건축 및 시점 일관성을 위한 평가 프레임워크를 제안합니다. 우리는 단일 플레이어에서 멀티플레이어 모델링으로 점진적으로 전환하는 단계적 파이프라인(staged pipeline)을 사용하여 솔라리스를 학습시켰으며, 양방향(bidirectional), 인과적(causal) 및 셀프 포싱(Self Forcing) 학습을 결합했습니다. 최종 단계에서는 더 긴 시계열의 티처(teacher)를 가능하게 하는 메모리 효율적인 셀프 포싱 변형인 체크포인트 셀프 포싱(Checkpointed Self Forcing)을 도입했습니다. 결과는 우리의 아키텍처와 학습 설계가 기존 베이스라인들을 능가함을 보여줍니다. 우리의 시스템과 모델을 오픈 소스로 공개함으로써 차세대 다중 에이전트 월드 모델의 토대를 마련하기를 희망합니다.
핵심 기여
멀티플레이어 비디오 월드 모델 솔라리스(Solaris) 개발
다중 에이전트 간의 상호작용과 여러 시점에서의 일관된 관측을 시뮬레이션할 수 있는 최초의 비디오 기반 월드 모델을 제안함.
대규모 멀티플레이어 데이터 수집 시스템 및 데이터셋
마인크래프트에서 다중 에이전트의 행동과 비디오를 동기화하여 수집하는 자동화 시스템을 구축하고, 1,264만 프레임 규모의 데이터셋을 확보함.
체크포인트 셀프 포싱(Checkpointed Self Forcing) 기법
긴 시계열 학습 시 발생하는 메모리 문제를 해결하기 위해 체크포인트를 활용한 효율적인 셀프 포싱 학습 알고리즘을 도입함.
방법론
단일 플레이어 데이터로 기초를 다진 후 멀티플레이어 데이터로 확장하는 단계적 학습 파이프라인을 사용한다. 양방향 및 인과적 모델링을 결합하고, 특히 긴 문맥 유지를 위해 메모리 효율적인 체크포인트 셀프 포싱 기법을 적용하여 모델의 예측 일관성을 높였다.
주요 결과
1,264만 개의 멀티플레이어 프레임 데이터셋을 기반으로 이동, 기억, 시점 일관성 등 5가지 핵심 지표에서 기존 베이스라인 모델들을 상회하는 성능을 기록했다. 특히 다중 시점 간의 시각적 일관성과 에이전트 간 상호작용의 물리적 타당성 측면에서 유의미한 개선을 보였다.
시사점
자율 주행이나 로봇 공학처럼 다중 객체 상호작용이 필수적인 실제 환경을 시뮬레이션하는 데 중요한 기술적 진보를 제공한다. 오픈 소스화된 데이터 수집 시스템은 향후 복잡한 협업 및 경쟁 시나리오를 학습하는 월드 모델 연구의 표준 도구로 활용될 가능성이 높다.
키워드
섹션별 상세
멀티플레이어 비디오 월드 모델 솔라리스(Solaris) 개발
대규모 멀티플레이어 데이터 수집 시스템 및 데이터셋
체크포인트 셀프 포싱(Checkpointed Self Forcing) 기법
AI 요약 · 북마크 · 개인 피드 설정 — 무료