WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

기존의 비디오 생성 모델들은 각자 서로 다른 환경과 조작 방식으로 성능을 측정하여 객관적인 비교가 불가능했다. WorldMark는 표준화된 조작 인터페이스와 테스트 케이스를 제공하여 다양한 월드 모델의 성능을 동일 선상에서 평가할 수 있는 기반을 마련했다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

통합 액션 매핑 레이어 도입

WASD 방식의 공통 액션 어휘를 각 모델 고유의 제어 형식(텍스트 프롬프트, 포즈 파라미터 등)으로 변환하는 레이어를 구축하여 서로 다른 입력 체계를 가진 모델들을 동일한 명령으로 제어할 수 있게 했다.

500개의 계층적 테스트 케이스 구축

1인칭 및 3인칭 시점, 실사 및 스타일화된 장면을 포함하는 500개의 평가 사례를 구성했다. 난이도를 Easy, Medium, Hard 3단계로 나누어 20초에서 60초까지의 장기 일관성을 측정한다.

다차원 평가 툴킷 제공

시각적 품질(Visual Quality), 제어 정렬(Control Alignment), 월드 일관성(World Consistency)이라는 세 가지 핵심 차원을 측정하는 모듈형 평가 도구를 개발했다.

관련 Figure

Diagram
(a)는 실사와 스타일화된 장면의 1/3인칭 뷰를, (b)는 WASD 입력을 각 모델의 형식으로 변환하는 과정을 설명한다. (c)는 동일한 입력에도 불구하고 모델마다 결과물의 품질과 내용이 크게 다름을 시각화하여 벤치마크의 필요성을 입증한다.
WorldMark의 세 가지 핵심 기둥인 다양한 장면 세트, 통합 액션 매핑, 그리고 모델별 출력 비교를 보여주는 개요도이다.

핵심 아이디어 이해하기

기존의 비디오 생성 모델 평가는 주로 정적인 텍스트나 이미지를 입력하고 그 결과물의 화질을 측정하는 데 그쳤다. 하지만 최근 등장하는 '월드 모델'은 사용자의 실시간 조작에 반응해야 하므로, 단순히 예쁜 영상을 만드는 것보다 사용자의 의도대로 화면이 움직이는지(Controllability)와 움직임 속에서도 배경이나 사물이 무너지지 않는지(Consistency)가 더 중요하다.

WorldMark는 이를 위해 모든 모델에게 '똑같은 사진'을 주고 '똑같은 조작 명령'을 내리는 표준 실험실 환경을 설계했다. 예를 들어, 어떤 모델은 '앞으로 가기'를 텍스트로 이해하고 어떤 모델은 좌표값으로 이해하는데, WorldMark는 중간에서 이를 번역하여 모든 모델이 동일한 '전진' 명령을 수행하게 만든다. 이를 통해 모델의 순수한 물리 엔진 능력과 시각적 유지력을 공정하게 비교할 수 있게 된다.

방법론

WorldMark는 다섯 가지 핵심 구성 요소로 이루어진 파이프라인을 따른다. 먼저 Image Suite에서 다양한 시점과 스타일의 참조 이미지를 선택하고, Action Suite에서 15가지의 표준화된 궤적 중 적절한 액션을 선택한다.

핵심 메커니즘인 Unified Action Interface는 공통 어휘(WASD+L/R)를 입력받아 각 모델의 Native Format으로 변환한다. [WASD 입력 → 모델별 어댑터 연산 → 텍스트/포즈/벡터 출력 → 모델 제어] 과정을 거친다. 이후 생성된 영상은 8개의 지표를 통해 평가된다. 예를 들어 Reprojection Error는 [생성된 프레임들 사이의 픽셀 대응점 추출 → 3D 구조 재구성 → 재투영 오차 계산 → 기하학적 일관성 수치화] 순으로 계산되어 월드의 안정성을 측정한다.

관련 Figure

Photo
WorldMark가 제공하는 Image Suite의 다양성을 보여준다. 특히 기존 데이터셋에 없던 3인칭 시점을 생성 모델을 통해 보완하여 모델의 시점 변환 능력을 평가할 수 있게 했음을 나타낸다.
실내, 도시, 자연 환경에 대해 실사와 스타일화된 버전, 그리고 1인칭과 3인칭 시점을 비교한 이미지 모음이다.

Chart
모델이 수행해야 할 물리적 움직임을 표준화했음을 보여준다. 20초에서 60초까지의 난이도별 구성을 통해 모델의 장기적인 월드 유지 능력을 체계적으로 검증할 수 있음을 시사한다.
단순 전진부터 복잡한 지그재그 및 회전 경로까지 포함된 15가지 표준 액션 시퀀스의 궤적 다이어그램이다.

Diagram
단순히 무작위 액션을 주는 것이 아니라, 장면의 맥락에 맞는 '타당한' 액션을 선택함으로써 평가의 신뢰도를 높이는 메커니즘을 설명한다.
VLM이 초기 장면을 분석하여 물리적으로 가능한 이동 경로(Safe Passage)를 선택하고 장애물을 식별하는 과정을 보여준다.

주요 결과

실험 결과, 시각적 품질과 월드 일관성은 서로 상관관계가 낮음이 밝혀졌다. YUME 1.5는 가장 심미적인 영상을 생성했지만 장기 일관성에서는 낮은 점수를 기록한 반면, Google의 Genie 3는 시각적 화질은 중간 수준이었으나 기하학적 일관성에서 압도적인 성능을 보였다.

또한 3인칭 시점 생성은 여전히 큰 과제로 남아있다. 1인칭에서 3인칭으로 시점을 전환할 때 Matrix-Game 2.0의 회전 오류가 약 20배 증가하는 등, 대부분의 오픈소스 모델들이 가시적인 캐릭터 주변의 카메라 제어를 유지하는 데 어려움을 겪는 것으로 나타났다.

관련 Figure

Screenshot
성공 사례는 질감 유지와 정확한 회전을 보여주는 반면, 실패 사례는 화질 저하, 잘못된 이동 방향, 배경 왜곡 등을 명확히 드러내어 평가 지표의 유효성을 증명한다.
시각적 품질, 제어 정렬, 월드 일관성 측면에서 성공한 사례와 실패한 사례를 비교한 스크린샷이다.

Chart
세 가지 일관성 지표 모두에서 Spearman 상관계수가 0.88 이상(최대 1.0)으로 나타나, 자동화된 벤치마크가 인간의 판단과 매우 유사함을 통계적으로 뒷받침한다.
인간의 선호도 점수와 WorldMark의 자동 평가 점수 간의 상관관계를 나타내는 산점도 그래프이다.

기술 상세

WorldMark 아키텍처는 이질적인 제어 인터페이스를 통합하는 데 초점을 맞춘다. YUME(텍스트), HY-World(6-DoF 포즈), Open-Oasis(25차원 벡터) 등 각기 다른 입력 형식을 수용하기 위해 모델별 액션 매핑 어댑터를 구현했다.

평가 지표 측면에서는 DROID-SLAM을 활용하여 생성된 비디오로부터 카메라 포즈를 역으로 추정하고, 이를 실제 입력된 궤적과 비교하여 Translation Error와 Rotation Error를 산출한다. 또한 VLM(Gemini-3.1-Pro 등)을 평가자로 활용하여 객체의 상태 변화나 스타일의 연속성을 정성적으로 분석함으로써 기하학적 지표가 놓칠 수 있는 시맨틱 오류를 보완한다.

한계점

본 논문은 현재 평가 대상 모델들이 주로 1인칭 시점에 최적화되어 있어 3인칭 시점에서의 성능 저하가 뚜렷하다는 점을 명시했다. 또한 고해상도(1080p 이상)에서의 메모리 일관성 유지 능력을 평가하는 데 있어 현재 모델들의 추론 비용이 높다는 점이 제약으로 작용할 수 있다.

실무 활용

개발자와 연구자들이 자신들의 월드 모델 성능을 객관적으로 검증하고 취약점을 파악하는 데 즉시 활용 가능하다.

새로운 비디오 월드 모델의 제어 정확도 및 물리적 일관성 벤치마킹
다양한 시점(1인칭/3인칭) 및 예술적 스타일에 따른 모델의 일반화 성능 테스트
실시간 상호작용 게임 엔진으로서의 AI 모델 적합성 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

World Model(월드 모델)Interactive Video Generation(상호작용형 비디오 생성)Benchmark(벤치마크)Action Controllability(액션 제어 가능성)Visual Consistency(시각적 일관성)

용어 해설

World Model: — 단순한 영상 생성을 넘어 사용자의 입력(액션)에 따라 환경이 어떻게 변할지 예측하고 상호작용 가능한 가상 환경을 시뮬레이션하는 AI 모델이다. 물리적 법칙과 공간적 일관성을 유지하며 미래 프레임을 생성하는 능력이 핵심이다.
Image-to-Video: — 정지된 이미지 한 장을 입력받아 이를 기반으로 움직이는 영상을 생성하는 기술이다. 월드 모델에서는 초기 장면 설정의 기준이 되며, 이후 사용자의 조작에 따라 영상이 이어지게 된다.
Action Controllability: — 사용자가 입력한 특정 명령(예: 전진, 회전)에 대해 모델이 생성하는 영상이 얼마나 정확하게 의도된 움직임을 반영하는지를 나타내는 척도이다.
VLM-based Scoring: — Vision-Language Model을 활용하여 생성된 영상의 물리적 일관성, 객체의 상태 변화, 스타일 유지 여부 등을 인간의 시각적 판단과 유사하게 평가하는 방식이다.

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

통합 액션 매핑 레이어 도입

500개의 계층적 테스트 케이스 구축

다차원 평가 툴킷 제공

시각적 품질(Visual Quality), 제어 정렬(Control Alignment), 월드 일관성(World Consistency)이라는 세 가지 핵심 차원을 측정하는 모듈형 평가 도구를 개발했다.

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

개발자와 연구자들이 자신들의 월드 모델 성능을 객관적으로 검증하고 취약점을 파악하는 데 즉시 활용 가능하다.

새로운 비디오 월드 모델의 제어 정확도 및 물리적 일관성 벤치마킹
다양한 시점(1인칭/3인칭) 및 예술적 스타일에 따른 모델의 일반화 성능 테스트
실시간 상호작용 게임 엔진으로서의 AI 모델 적합성 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

World Model(월드 모델)Interactive Video Generation(상호작용형 비디오 생성)Benchmark(벤치마크)Action Controllability(액션 제어 가능성)Visual Consistency(시각적 일관성)

용어 해설

World Model: — 단순한 영상 생성을 넘어 사용자의 입력(액션)에 따라 환경이 어떻게 변할지 예측하고 상호작용 가능한 가상 환경을 시뮬레이션하는 AI 모델이다. 물리적 법칙과 공간적 일관성을 유지하며 미래 프레임을 생성하는 능력이 핵심이다.
Image-to-Video: — 정지된 이미지 한 장을 입력받아 이를 기반으로 움직이는 영상을 생성하는 기술이다. 월드 모델에서는 초기 장면 설정의 기준이 되며, 이후 사용자의 조작에 따라 영상이 이어지게 된다.
Action Controllability: — 사용자가 입력한 특정 명령(예: 전진, 회전)에 대해 모델이 생성하는 영상이 얼마나 정확하게 의도된 움직임을 반영하는지를 나타내는 척도이다.
VLM-based Scoring: — Vision-Language Model을 활용하여 생성된 영상의 물리적 일관성, 객체의 상태 변화, 스타일 유지 여부 등을 인간의 시각적 판단과 유사하게 평가하는 방식이다.

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

용어 해설

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

용어 해설

관련 토론

댓글

관련 기사

픽셀에서 상태로: 게임 엔진 관점에서 재고한 상호작용형 월드 모델

KeyFrame-Compass: 키프레임 조건화 비디오 생성의 포괄적 벤치마크와 자동화 평가 프레임워크

관련 토론

댓글

관련 기사

픽셀에서 상태로: 게임 엔진 관점에서 재고한 상호작용형 월드 모델

KeyFrame-Compass: 키프레임 조건화 비디오 생성의 포괄적 벤치마크와 자동화 평가 프레임워크