핵심 요약
기존의 월드 모델들이 사전 학습된 비디오 모델을 미세 조정하여 제어력을 확보했던 것과 달리, Waypoint-1은 처음부터 인터랙티브 경험을 위해 설계된 실시간 비디오 디퓨전 모델이다. 10,000시간의 게임 플레이 데이터와 제어 입력을 학습하여 사용자의 마우스 및 키보드 입력에 지연 시간 없이 즉각적으로 반응하는 가상 환경을 생성한다. 전용 추론 라이브러리인 WorldEngine을 통해 소비자용 하드웨어에서도 30~60 FPS의 고성능을 구현하며, 현재 Waypoint-1-Small 모델의 가중치가 Hugging Face에 공개되어 있다.
배경
Diffusion Models, Transformer Architecture, Python, PyTorch
대상 독자
게임 개발자, AI 연구원, 월드 모델 및 비디오 생성 기술에 관심 있는 엔지니어
의미 / 영향
이 모델은 AI가 단순히 영상을 생성하는 단계를 넘어, 사용자와 실시간으로 상호작용하는 가상 환경(World Model)을 구축하는 시대로의 전환을 가속화할 것이다. 특히 게임 산업에서 절차적 콘텐츠 생성과 실시간 렌더링의 경계를 허무는 중요한 기술적 이정표가 될 것으로 보인다.
섹션별 상세
Waypoint-1은 프레임 인과적 rectified flow transformer 아키텍처를 기반으로 하며, 10,000시간의 다양한 비디오 게임 푸티지와 제어 입력 데이터를 통해 학습되었다. 기존 모델들이 몇 프레임마다 한 번씩만 카메라 조작이 가능했던 한계를 극복하여, 마우스와 키보드를 통한 자유로운 실시간 조작을 지원한다. 각 프레임은 사용자의 제어 입력을 컨텍스트로 삼아 생성되므로 지연 시간이 거의 느껴지지 않는 것이 특징이다.
학습 과정에서는 과거 프레임을 기반으로 미래 프레임의 노이즈를 제거하는 '디퓨전 포싱(Diffusion Forcing)' 기술이 사용되었다. 여기에 추론 시 발생하는 오차 누적 문제를 해결하기 위해 '셀프 포싱(Self-forcing)' 기법을 추가로 적용하여 장기적인 프레임 생성의 안정성을 확보했다. DMD를 통한 셀프 포싱은 한 번의 패스로 분류기 없는 가이던스(CFG)를 수행하고 적은 단계의 노이즈 제거만으로도 고품질 결과를 얻는 이점을 제공한다.
고성능 추론을 위해 개발된 WorldEngine 라이브러리는 AdaLN 기능 캐싱, 정적 롤링 KV 캐시, Flex Attention 등 네 가지 핵심 최적화 기술을 포함한다. 이를 통해 RTX 5090 환경에서 Waypoint-1-Small 모델 기준 초당 30,000개 이상의 토큰 패스를 처리하며 실시간 스트리밍이 가능하다. 순수 Python으로 작성되어 개발자 접근성이 높으며 저지연 고처리량 환경에 최적화된 런타임 루프를 제공한다.
모델은 현재 Hugging Face를 통해 Waypoint-1-Small(2.3B) 버전이 공개되었으며, 더 큰 규모의 Medium 모델도 출시될 예정이다. 제공되는 Python 기반의 WorldEngine SDK를 사용하면 몇 줄의 코드만으로 텍스트 프롬프트와 컨트롤러 입력을 결합한 인터랙티브 월드를 구축할 수 있다. Overworld는 이 기술을 확장하기 위해 2026년 1월 20일에 전용 해커톤을 개최하여 커뮤니티의 참여를 독려하고 있다.
</> 코드 예제 포함
실무 Takeaway
- Waypoint-1은 소비자용 GPU(RTX 5090 등)에서 30~60 FPS의 실시간 인터랙티브 비디오 생성을 달성하여 월드 모델의 실용성을 증명했다.
- 디퓨전 포싱과 셀프 포싱의 결합은 자가 회귀적(Autoregressive) 비디오 생성 시 발생하는 노이즈 축적과 품질 저하 문제를 효과적으로 억제한다.
- WorldEngine 라이브러리는 AdaLN 캐싱과 KV 캐시 최적화를 통해 추론 효율을 극대화하여 실시간 상호작용에 필수적인 저지연 환경을 구축했다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료