Waypoint-1: Overworld의 실시간 인터랙티브 비디오 디퓨전 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 모델은 제어 입력이 제한적이고 지연 시간이 길어 실시간 상호작용에 한계가 있었다. Overworld는 이를 해결하기 위해 10,000시간의 게임 데이터를 학습한 실시간 인터랙티브 비디오 디퓨전 모델 Waypoint-1을 개발했다. 이 모델은 텍스트, 마우스, 키보드 입력을 컨텍스트로 받아 지연 시간 없이 프레임을 생성하며, 전용 추론 라이브러리 WorldEngine을 통해 소비자용 하드웨어에서도 높은 FPS를 구현한다.

배경

Python, CUDA 지원 GPU (RTX 5090 권장), PyTorch, 기본적인 디퓨전 모델 이해

대상 독자

실시간 AI 시뮬레이션 및 게임 개발자, 비디오 생성 모델 연구자

의미 / 영향

이 기술은 AI가 단순한 영상 생성을 넘어 실시간으로 조작 가능한 가상 세계를 구축할 수 있음을 보여준다. 특히 저사양 하드웨어에서도 높은 프레임률을 달성함으로써 AI 기반 인터랙티브 콘텐츠의 대중화 가능성을 제시한다.

섹션별 상세

Waypoint-1은 텍스트와 키보드/마우스 입력을 통해 실시간으로 제어 가능한 월드 모델이다. 10,000시간의 게임 영상 데이터를 학습하여 사용자가 생성된 세계와 지연 없이 상호작용할 수 있는 환경을 제공한다.

모델은 프레임 인과 관계를 따르는 Rectified Flow Transformer 아키텍처를 기반으로 하며 잠재 공간에서 압축된 프레임을 처리한다. 기존 비디오 모델의 미세 조정 방식과 달리 처음부터 인터랙티브 경험을 위해 설계되어 자유로운 카메라 이동과 키 입력을 지원한다.

학습에는 과거 프레임을 조건으로 미래를 예측하는 Diffusion Forcing 기법이 사용되었다. 추론 시 발생하는 오차 누적을 방지하기 위해 Self-forcing 및 DMD 기법을 도입하여 적은 단계의 디노이징으로도 고품질의 연속 프레임을 생성한다.

전용 추론 라이브러리 WorldEngine은 AdaLN 기능 캐싱과 정적 KV 캐시 최적화를 통해 성능을 극대화한다. RTX 5090 환경에서 2단계 디노이징 시 최대 60 FPS의 실시간 스트리밍 속도를 구현하며 Python 환경에서 쉽게 확장 가능하다.

python

from world_engine import WorldEngine, CtrlInput

# 추론 엔진 생성
engine = WorldEngine("Overworld/Waypoint-1-Small", device="cuda")

# 프롬프트 설정
engine.set_prompt("A game where you herd goats in a beautiful valley")

# 컨트롤러 입력에 따른 프레임 생성 루프
for controller_input in [
    CtrlInput(button={48, 42}, mouse=[0.4, 0.3]),
    CtrlInput(mouse=[0.1, 0.2]),
    CtrlInput(button={95, 32, 105}),
]:
    img = engine.gen_frame(ctrl=controller_input)

WorldEngine을 사용하여 텍스트 프롬프트와 컨트롤러 입력에 기반한 실시간 프레임을 생성하는 예시

실무 Takeaway

실시간 상호작용이 필요한 비디오 생성 시스템 구축 시 Diffusion Forcing과 Self-forcing을 결합하여 프레임 간 일관성을 확보하고 오차 누적을 방지해야 한다.
소비자용 GPU에서 고해상도 비디오를 실시간으로 생성하기 위해 AdaLN 캐싱 및 정적 KV 캐시와 같은 추론 최적화 기법을 적용한 전용 엔진 활용이 필수적이다.

언급된 리소스

GitHubWaypoint-1 Weights on the Hub

DemoOverworld Stream