왜 중요한가
기존 비디오 생성 모델은 액션과 시각적 변화를 단순히 픽셀 단위로 연결하여 장기적인 일관성이 부족했다. 이 논문은 실제 게임 엔진의 내부 상태 정보를 포함한 대규모 데이터를 제공하여, 모델이 물리적 법칙과 인과관계를 직접 학습할 수 있는 새로운 연구 방향을 제시한다.
핵심 기여
WildWorld 대규모 데이터셋 구축
AAA급 게임 'Monster Hunter: Wilds'에서 추출한 1억 8백만 프레임 이상의 대규모 액션 조건부 비디오 데이터셋을 구축하여 공개함.
프레임별 명시적 상태 주석 제공
450개 이상의 액션과 함께 캐릭터 골격, 월드 상태, 카메라 포즈, 깊이 맵 등 게임 엔진 내부의 정답(Ground-truth) 데이터를 프레임 단위로 포함함.
WildBench 평가 벤치마크 개발
액션 수행 능력(Action Following)과 상태 일치도(State Alignment)를 정량적으로 측정할 수 있는 새로운 평가 지표와 벤치마크를 도입함.
상태 인식 비디오 생성 모델 설계
텍스트와 액션뿐만 아니라 명시적 상태 정보를 입력으로 사용하는 StateCtrl 모델을 통해 장기적 일관성 향상을 입증함.
핵심 아이디어 이해하기
기존 비디오 생성 모델은 주로 인터넷 비디오를 학습하며, '왼쪽으로 이동' 같은 액션이 단순히 화면의 시점 변화로만 학습된다. 이는 모델이 세계의 물리적 규칙을 이해하는 것이 아니라 겉모습만 흉내 내는 것에 가깝다. 결과적으로 긴 시간 동안 영상을 생성할 때 캐릭터가 사라지거나 물리적으로 불가능한 움직임이 나타나는 한계가 있다.
이 논문은 비디오를 단순한 이미지의 나열이 아니라, 액션에 의해 변화하는 '잠재 상태(Latent State)'의 전이 과정으로 정의한다. 예를 들어 '공격' 액션은 단순히 휘두르는 모습뿐만 아니라 캐릭터의 스테미나 감소, 몬스터의 체력 변화 등 눈에 보이지 않는 내부 수치의 변화를 동반한다. WildWorld는 이러한 게임 엔진 내부의 수치 데이터를 비디오와 함께 제공하여 모델이 '상태 변화'를 직접 학습하도록 유도한다.
이를 통해 모델은 단순한 픽셀 예측을 넘어, 현재 상태와 입력된 액션이 다음 상태를 어떻게 변화시키는지 계산하는 '월드 모델'로서 동작하게 된다. 실험 결과, 명시적인 상태 정보를 활용한 모델은 기존 방식보다 캐릭터의 움직임이 훨씬 정교해졌으며, 장기적인 시나리오에서도 일관된 물리 법칙을 유지하는 능력이 크게 향상되었다.
방법론
데이터 수집 플랫폼은 AAA 게임 엔진과 연동하여 플레이어 액션, 캐릭터 골격, 월드 상태(체력, 위치, 회전 등)를 실시간으로 기록하는 툴체인으로 구성된다. OBS Studio와 Reshade를 활용해 RGB 프레임과 깊이 맵을 동시에 캡처하며 프레임 단위의 동기화를 보장한다.
자동 게임 플레이 파이프라인은 행동 트리(Behavior Tree) 기반의 AI를 사용하여 다양한 전투 및 탐험 시나리오를 생성한다. 수집된 데이터는 지속 시간, 프레임 연속성, 조도, 카메라 가림 등 5가지 기준의 다차원 필터를 거쳐 고품질의 샘플만 선별된다.
계층적 캡션 생성 단계에서는 Qwen3-VL 모델을 사용하여 프레임별 액션 ID를 상세한 텍스트 캡션으로 변환하고, Gemini 3 Flash를 통해 전체 샘플의 요약 캡션을 생성한다. 이는 모델이 시각 정보와 텍스트 명령어를 더 잘 연결하도록 돕는다.
StateCtrl 아키텍처는 이산 상태(몬스터 종류 등)를 임베딩 레이어로, 연속 상태(좌표, 체력 등)를 MLP로 처리한다. [입력 상태 벡터 → Transformer 블록 연산 → 통합 상태 임베딩] 과정을 거쳐 생성된 정보는 DiT(Diffusion Transformer)의 중간 레이어에 주입되어 비디오 생성을 가이드한다.
주요 결과
WildBench 평가 결과, 제안된 StateCtrl 모델은 기본 모델 대비 액션 수행 능력(Action Following)에서 약 31.89%p 향상된 성능을 기록했다. 특히 카메라 제어 지표인 ATE와 RPE 수치가 대폭 감소하여 정교한 시점 제어가 가능함이 확인됐다.
상태 일치도(State Alignment) 분석에서 시각적 신호를 직접 조건으로 사용하는 SkelCtrl이 22.03%로 가장 높은 정확도를 기록했다. 이는 골격 정보를 직접 주입하는 것이 캐릭터의 물리적 위치를 유지하는 데 가장 효과적임을 시사한다.
자기회귀(Autoregressive) 방식인 StateCtrl-AR은 첫 프레임의 상태만 주어지고 이후 상태를 스스로 예측하며 비디오를 생성함에도 불구하고, 전체적인 비디오 품질에서 완전 지도 학습 모델과 유사한 수준을 유지했다. 다만 긴 시퀀스에서는 예측 오차가 누적되어 액션 수행 능력이 다소 하락하는 경향이 나타났다.
실무 활용
고품질 게임 비디오 생성 및 상호작용 가능한 월드 모델 연구에 즉시 활용 가능하다. 특히 게임 개발 단계에서 AI 기반의 자동 플레이 테스트나 동적 컷신 생성 도구로 응용될 잠재력이 크다.
- AI 기반 인터랙티브 게임 엔진 및 실시간 월드 시뮬레이션 개발
- 로봇 학습 및 자율 주행을 위한 고충실도 가상 환경 데이터셋 활용
- 텍스트 및 액션 조건부 고해상도 비디오 생성 모델의 벤치마킹
- 게임 내 NPC의 지능형 행동 생성 및 시각적 피드백 시스템 구축
기술 상세
데이터셋은 29종의 몬스터, 4종의 무기 타입, 5개의 오픈월드 스테이지를 포함하며 총 119개의 주석 컬럼을 제공한다. 각 프레임의 캐릭터 상태는 (무기, 뱅크 ID, 모션 ID)의 트리플렛으로 인코딩되어 총 5,960개의 고유 액션 조합을 형성한다.
StateCtrl 모델은 DiT 구조를 기반으로 하며, 상태 정보를 주입하기 위해 별도의 상태 디코더(State Decoder)와 상태 예측기(State Predictor)를 도입했다. 학습 시 디코더 손실(Decoder Loss)을 통해 임베딩이 원래 상태 정보를 보존하도록 강제하고, 예측기 손실(Predictor Loss)로 다음 프레임 상태 예측의 정확도를 높였다.
WildBench의 Action Following 지표는 Gemini 3 Flash를 평가자로 활용하여 생성된 비디오와 정답 액션 시퀀스의 일치 여부를 판단한다. State Alignment는 TAPNext를 이용해 생성된 영상 내 캐릭터의 관절 포인트를 추적하고, 이를 실제 좌표와 비교하여 4, 8, 16, 32 픽셀 임계값 내의 평균 정확도를 계산한다.
한계점
자기회귀 방식의 월드 모델(StateCtrl-AR)에서 반복적인 다음 상태 예측 시 오차가 누적되어 장기적인 액션 일관성이 떨어지는 현상이 관찰됐다. 또한 현재 데이터셋은 특정 게임(Monster Hunter: Wilds)에 국한되어 있어 일반적인 월드 모델로의 전이 학습 능력에 대한 추가 검증이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.