ReactiveGWM: Reactive Game World Models로 NPC 제어하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

이 논문은 NPC의 자율성과 플레이어 상호작용을 게임 월드 모델에서 분리한다. 기존의 플레이어 중심 월드 모델은 NPC를 배경으로 다루어 상호작용의 고유한 역학을 포착하지 못했다. ReactiveGWM은 game-agnostic한 NPC 표현과 zero-shot 전략 전이를 가능하게 하여 다양한 게임에 적용 가능한 steerable NPC를 구현한다.

왜 중요한가

핵심 기여

NPC autonomy grounded by cross-attention

고수준 NPC 전략을 cross-attention으로 시각-시간 잠재 공간에 연결해 NPC의 자율적 행동을 학습한다.

Action injection via additive bias

플레이어 입력 a1:T를 DiT 블록에 additive bias로 주입해 최적화된 제어를 가능하게 한다.

Strategy-aligned dataset construction

SF2, SF3 두 게임의 NPC 프롬프트를 포함하는 triplets (x0:T, aT, PNPC)를 구성해 학습 데이터로 사용한다.

Game-agnostic transfer

Cross-Attention 모듈의 재사용으로 vanilla 프레임워크에 zero-shot 전략 조건을 제공한다.

Zero-shot strategy transfer capability

다른 게임에 재학습 없이도 전략 제어를 적용할 수 있음을 보인다.

핵심 아이디어 이해하기

출발점: 기존 게임 월드 모델은 플레이어 중심 시나리오에서 NPC를 배경으로 다루며, NPC의 고수준 전략은 명시적으로 모델링되지 않는다. 해결: NPC 프롬프트 PNPC를 도입해 NPC의 전술 의도를 명시하고, 플레이어 입력은 additive bias를 통해 diffusion 백본에 주입한다. Grounding: NPC 전략은 cross-attention 모듈로 시각-시간 잠재 공간에 연결되어, 게임-독립적인 표현으로 학습된다. 영향: 이 접근은 게임 간의 제로샷 전략 전이를 가능하게 하며, steerable NPC를 다양한 게임에서 재훈련 없이 적용할 수 있다.

방법론

전체 접근 방식: vanilla 프롬프트(Pvanilla) 대신 NPC 프롬프트 PNPC를 도입하여 NPC의 전략적 의도를 제시하고, 플레이어 입력(aT)을 additive bias로 백본에 주입한다. 2) 핵심 메커니즘: ā ∈ {0,1}^{f×K}를 adaptive max-pooling으로 구성하고, 각 DiT 블록 ℓ에서 Eℓ : R^K → R^C를 통해 얻은 임베딩을 [h×w]에 브로드캐스트하여 x(ℓ)에 더한다(x(ℓ) ← x(ℓ) + Eℓ(ā) ⊗ 1_{h×w}); Cross-Attention으로 PNPC를 잠재 공간에 정렬한다. 3) 학습·구현 세부: 데이터셋은 SF2/SF3에서 ∼10k 트리플을 구성하며, 5초 단위 클립으로 분절하고 Gemini으로 Active/Passive 태그와 Strategy를 주석화한다. 4) 학습 전략: ReactiveGWMbase는 전체 아키텍처를 미세조정하며 Cross-Attention을 통해 NPC 전략을 ground한다. 5) 자동전이: Fvanilla를 타 게임에 재적재할 필요 없이, Game1의 Cross-Attention 모듈을 Game2의 backbone에 주입해 ReactiveGWMtransfer를 구성한다.

주요 결과

주요 벤치마크 결과: SF2에서 Vanilla의 NPC Instruction Gemini 43.4, Qwen 44.4 에 비해 ReactiveGWMbase는 Gemini 75.8, Qwen 76.8로 증가하며, ReactiveGWMtransfer는 Gemini 64.6, Qwen 64.6이다. Att/Move 컨트롤은 SF2에서 Move-Acc 95.0, Att-Acc 93.3(ReactiveGWMbase)로, Vanilla 97.5/96.7과 비슷한 수준이다. SF3에서 Vanilla는 Move-Acc 100.0, Att-Acc 100.0이고, NPC Instruction은 Gemini 41.8, Qwen 49.5이다. ReactiveGWMbase는 Move-Acc 100.0, Att-Acc 100.0으로 NPC Instruction Gemini 79.8, Qwen 78.8를 달성했으며, ReactiveGWMtransfer는 Move-Acc 95.0, Att-Acc 100.0, NPC Instruction Gemini 63.6, Qwen 73.7이다. 시각적 품질은 SF2에서 SSIM 0.427( Vanilla), 0.428(ReactiveGWMbase), 0.421(ReactiveGWMtransfer)이고 LPIPS는 0.315, 0.319, 0.318이다. SF3의 SSIM은 0.392( Vanilla), 0.394(ReactiveGWMbase), 0.367(ReactiveGWMtransfer); LPIPS는 0.397, 0.391, 0.414로 나타난다. 전이성: ReactiveGWMtransfer는 Action controllability을 거의 유지하고, Cross-Attention 모듈의 재사용으로 vanilla 모델에 zero-shot 전략 제어를 제공한다.

기술 상세

아키텍처는 diffusion-backbone( Wan2.2-TI2V-5B ) 위에, DiT 블록마다 Action Module을 추가해 이산적 player actions를 주입한다. 입력 a1:T는 f×K 이진 시퀀스 ā로 압축되며, Eℓ : R^K → R^C를 통해 각 블록의 잠재 채널에 선형 프로젝션으로 매핑되어 x(ℓ)에 additive하게 더해진다. 이때 2D 공간 해상도 h×w에 맞춰 [B,L,C] 텐서를 브로드캐스트한다. NPC 프롬프트 PNPC는 Stage 1의 사실 관찰과 Stage 2의 결정 규칙으로 구성된 구조화된 태깅을 거쳐 Active/Passive 태그와 Strategy를 포함한다. ReactiveGWMbase는 전체 모듈을 학습하고 Cross-Attention을 통해 PNPC를 시각-타임 잠재 공간으로 강하게 연결한다. 전달 능력 향상을 위해 ReactiveGWMtransfer는 Game1의 Cross-Attention 모듈을 Game2의 백본에 삽입해 zero-shot 전략 조건부 제어를 가능하게 한다. 데이터셋은 SF2, SF3에서 ∼10k 트리플, 5초 클립, Gemini를 이용한 Stage 1/Stage 2 라벨링으로 구성된다.

한계점

제한점은 두 가지로 요약된다. 1) 평가가 2D Fighting Games에 한정되므로 범용성 검증이 부족하다. 2) 확산(backbone) 기반의 추론 지연이 있어 실시간 인터랙티브에 한계가 있다. 향후는 autoregressive 비디오 생성이나 지식 증류를 통한 속도 향상을 제시한다.

실무 활용

실무적으로는 steerable NPC를 위한 모듈형 월드 모델 설계가 가능하다. NPC 전략 모듈의 교체와 additive bias의 경량 주입으로 다양한 게임에 재학습 없이 적용할 수 있다.

다양한 게임에서 NPC와의 상호작용을 강화하는 자동 생성 콘텐츠
eSports 트레이닝 환경에서 NPC의 전략적 난이도 조정
게임 내 NPC 튜레팅 도구로서 플레이어-환경의 상호작용 실험
리서치용으로 다른 게임으로의 전략 전이 연구

코드 공개 여부: 공개

코드 저장소 보기

키워드

diffusion-modelscross-attentiongame-agnostic representationzero-shot transfernpc autonomyReactiveGWM