TL;DR
이 논문은 NPC의 자율성과 플레이어 상호작용을 게임 월드 모델에서 분리한다. 기존의 플레이어 중심 월드 모델은 NPC를 배경으로 다루어 상호작용의 고유한 역학을 포착하지 못했다. ReactiveGWM은 game-agnostic한 NPC 표현과 zero-shot 전략 전이를 가능하게 하여 다양한 게임에 적용 가능한 steerable NPC를 구현한다.
왜 중요한가
이 논문은 NPC의 자율성과 플레이어 상호작용을 게임 월드 모델에서 분리한다. 기존의 플레이어 중심 월드 모델은 NPC를 배경으로 다루어 상호작용의 고유한 역학을 포착하지 못했다. ReactiveGWM은 game-agnostic한 NPC 표현과 zero-shot 전략 전이를 가능하게 하여 다양한 게임에 적용 가능한 steerable NPC를 구현한다.
핵심 기여
NPC autonomy grounded by cross-attention
고수준 NPC 전략을 cross-attention으로 시각-시간 잠재 공간에 연결해 NPC의 자율적 행동을 학습한다.
Action injection via additive bias
플레이어 입력 a1:T를 DiT 블록에 additive bias로 주입해 최적화된 제어를 가능하게 한다.
Strategy-aligned dataset construction
SF2, SF3 두 게임의 NPC 프롬프트를 포함하는 triplets (x0:T, aT, PNPC)를 구성해 학습 데이터로 사용한다.
Game-agnostic transfer
Cross-Attention 모듈의 재사용으로 vanilla 프레임워크에 zero-shot 전략 조건을 제공한다.
Zero-shot strategy transfer capability
다른 게임에 재학습 없이도 전략 제어를 적용할 수 있음을 보인다.
핵심 아이디어 이해하기
출발점: 기존 게임 월드 모델은 플레이어 중심 시나리오에서 NPC를 배경으로 다루며, NPC의 고수준 전략은 명시적으로 모델링되지 않는다. 해결: NPC 프롬프트 PNPC를 도입해 NPC의 전술 의도를 명시하고, 플레이어 입력은 additive bias를 통해 diffusion 백본에 주입한다. Grounding: NPC 전략은 cross-attention 모듈로 시각-시간 잠재 공간에 연결되어, 게임-독립적인 표현으로 학습된다. 영향: 이 접근은 게임 간의 제로샷 전략 전이를 가능하게 하며, steerable NPC를 다양한 게임에서 재훈련 없이 적용할 수 있다.
관련 Figure

논문의 느린 모바일 상태에서 NPC가 세 가지 전략으로 거리 관리와 근접 전투를 어떻게 수행하는지 시각적으로 확인 가능하다. 이는 ReactiveGWMbase의 전략-유도 제어가 픽셀 렌더링과 상호작용 로직의 구분에 의해 구현됨을 보여주는 핵심 근거가 된다.
SF2/SF3의 NPC 시나리오에서 Offense/Defense/Control 전략이 시각적으로 표현된 패널
방법론
- 전체 접근 방식: vanilla 프롬프트(Pvanilla) 대신 NPC 프롬프트 PNPC를 도입하여 NPC의 전략적 의도를 제시하고, 플레이어 입력(aT)을 additive bias로 백본에 주입한다. 2) 핵심 메커니즘: ā ∈ {0,1}^{f×K}를 adaptive max-pooling으로 구성하고, 각 DiT 블록 ℓ에서 Eℓ : R^K → R^C를 통해 얻은 임베딩을 [h×w]에 브로드캐스트하여 x(ℓ)에 더한다(x(ℓ) ← x(ℓ) + Eℓ(ā) ⊗ 1_{h×w}); Cross-Attention으로 PNPC를 잠재 공간에 정렬한다. 3) 학습·구현 세부: 데이터셋은 SF2/SF3에서 ∼10k 트리플을 구성하며, 5초 단위 클립으로 분절하고 Gemini으로 Active/Passive 태그와 Strategy를 주석화한다. 4) 학습 전략: ReactiveGWMbase는 전체 아키텍처를 미세조정하며 Cross-Attention을 통해 NPC 전략을 ground한다. 5) 자동전이: Fvanilla를 타 게임에 재적재할 필요 없이, Game1의 Cross-Attention 모듈을 Game2의 backbone에 주입해 ReactiveGWMtransfer를 구성한다.
관련 Figure

데이터 트리플(x0:T, aT, PNPC) 구성 및 NPC 프롬프트의 파생 과정을 도식화해, 3.2의 데이터 construction과 3.3의 모델 아키텍처 연결을 명확히 한다. 이는 strategy-aligned dataset의 핵심 흐름을 직접 보여준다.
데이터 구성 및 전략 주석 파이프라인 다이어그램
주요 결과
주요 벤치마크 결과: SF2에서 Vanilla의 NPC Instruction Gemini 43.4, Qwen 44.4 에 비해 ReactiveGWMbase는 Gemini 75.8, Qwen 76.8로 증가하며, ReactiveGWMtransfer는 Gemini 64.6, Qwen 64.6이다. Att/Move 컨트롤은 SF2에서 Move-Acc 95.0, Att-Acc 93.3(ReactiveGWMbase)로, Vanilla 97.5/96.7과 비슷한 수준이다. SF3에서 Vanilla는 Move-Acc 100.0, Att-Acc 100.0이고, NPC Instruction은 Gemini 41.8, Qwen 49.5이다. ReactiveGWMbase는 Move-Acc 100.0, Att-Acc 100.0으로 NPC Instruction Gemini 79.8, Qwen 78.8를 달성했으며, ReactiveGWMtransfer는 Move-Acc 95.0, Att-Acc 100.0, NPC Instruction Gemini 63.6, Qwen 73.7이다. 시각적 품질은 SF2에서 SSIM 0.427( Vanilla), 0.428(ReactiveGWMbase), 0.421(ReactiveGWMtransfer)이고 LPIPS는 0.315, 0.319, 0.318이다. SF3의 SSIM은 0.392( Vanilla), 0.394(ReactiveGWMbase), 0.367(ReactiveGWMtransfer); LPIPS는 0.397, 0.391, 0.414로 나타난다. 전이성: ReactiveGWMtransfer는 Action controllability을 거의 유지하고, Cross-Attention 모듈의 재사용으로 vanilla 모델에 zero-shot 전략 제어를 제공한다.
관련 Figure

Active/Passive 행동 예시를 통해 NPC 제어가 어떻게 구현되는지 시연한다. 액션 모듈과의 결합으로 NPC가 Crisis 이벤트에서 특정 행동을 수행하는 모습을 보여주고, 실험적 결과의 시각적 근거를 제공한다.
ReactiveGWMbase의 Action control 예시의 프레임 시퀀스

전이 결과를 한 눈에 비교하며, Cross-Attention 모듈 재사용으로 vanilla 모델에 zero-shot 전략 제어가 가능하다는 핵심 주장을 시각적으로 보조한다.
Vanilla vs ReactiveGWMbase vs ReactiveGWMtransfer의 SF2 비교 이미지
기술 상세
아키텍처는 diffusion-backbone( Wan2.2-TI2V-5B ) 위에, DiT 블록마다 Action Module을 추가해 이산적 player actions를 주입한다. 입력 a1:T는 f×K 이진 시퀀스 ā로 압축되며, Eℓ : R^K → R^C를 통해 각 블록의 잠재 채널에 선형 프로젝션으로 매핑되어 x(ℓ)에 additive하게 더해진다. 이때 2D 공간 해상도 h×w에 맞춰 [B,L,C] 텐서를 브로드캐스트한다. NPC 프롬프트 PNPC는 Stage 1의 사실 관찰과 Stage 2의 결정 규칙으로 구성된 구조화된 태깅을 거쳐 Active/Passive 태그와 Strategy를 포함한다. ReactiveGWMbase는 전체 모듈을 학습하고 Cross-Attention을 통해 PNPC를 시각-타임 잠재 공간으로 강하게 연결한다. 전달 능력 향상을 위해 ReactiveGWMtransfer는 Game1의 Cross-Attention 모듈을 Game2의 백본에 삽입해 zero-shot 전략 조건부 제어를 가능하게 한다. 데이터셋은 SF2, SF3에서 ∼10k 트리플, 5초 클립, Gemini를 이용한 Stage 1/Stage 2 라벨링으로 구성된다.
한계점
제한점은 두 가지로 요약된다. 1) 평가가 2D Fighting Games에 한정되므로 범용성 검증이 부족하다. 2) 확산(backbone) 기반의 추론 지연이 있어 실시간 인터랙티브에 한계가 있다. 향후는 autoregressive 비디오 생성이나 지식 증류를 통한 속도 향상을 제시한다.
실무 활용
실무적으로는 steerable NPC를 위한 모듈형 월드 모델 설계가 가능하다. NPC 전략 모듈의 교체와 additive bias의 경량 주입으로 다양한 게임에 재학습 없이 적용할 수 있다.
- 다양한 게임에서 NPC와의 상호작용을 강화하는 자동 생성 콘텐츠
- eSports 트레이닝 환경에서 NPC의 전략적 난이도 조정
- 게임 내 NPC 튜레팅 도구로서 플레이어-환경의 상호작용 실험
- 리서치용으로 다른 게임으로의 전략 전이 연구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.