Omni-WorldBench: 월드 모델을 위한 포괄적인 상호작용 중심 평가 벤치마크

기존 월드 모델 평가는 영상의 시각적 화질에만 치중하여, 사용자의 조작에 따라 환경이 어떻게 변하는지를 제대로 측정하지 못했습니다. 이 논문은 물리 법칙과 인과 관계를 바탕으로 모델의 상호작용 능력을 평가하는 새로운 기준을 제시하여, 자율주행이나 로봇 공학에 쓰이는 AI의 실질적인 지능을 측정할 수 있게 합니다.

왜 중요한가

핵심 기여

상호작용 중심의 4D 월드 모델 벤치마크 Omni-WorldBench 제안

월드 모델이 상호작용 행동에 따라 공간적 구조와 시간적 진화를 얼마나 잘 반영하는지 평가하는 최초의 포괄적 프레임워크이다.

3단계 상호작용 계층을 포함한 Omni-WorldSuite 구축

단일 객체 변화부터 전역적 환경 변화까지 아우르는 3단계 계층 구조의 1,068개 프롬프트를 통해 모델의 다각적 대응 능력을 검증한다.

MLLM 기반의 적응형 통합 지표 AgenticScore 도입

영상 품질, 제어력, 상호작용 충실도를 독립적으로 측정하고 MLLM을 통해 프롬프트 맥락에 맞는 가중치를 부여하여 최종 점수를 산출한다.

18개 주요 월드 모델에 대한 광범위한 벤치마킹 수행

Wan2.2, Cosmos 등 최신 모델들을 평가하여 이미지 조건부 입력이 월드 모델링 성능 향상에 핵심적임을 입증했다.

핵심 아이디어 이해하기

월드 모델은 단순히 영상을 생성하는 것을 넘어, 특정 행동(Action)이 주어졌을 때 환경이 어떻게 변할지 예측하는 '세계의 시뮬레이터' 역할을 해야 한다. 기존의 비디오 생성 모델 평가는 주로 FID(Fréchet Inception Distance)나 VBench와 같이 텍스트와 영상의 일치도나 시각적 화질에만 집중했다. 이는 모델이 물리적 인과 관계를 이해하고 있는지, 혹은 사용자의 입력에 따라 상태 전이(State Transition)를 정확히 수행하는지를 파악하기 어렵게 만든다.

Omni-WorldBench는 상호작용의 범위를 세 단계로 나누어 이 문제를 해결한다. 레벨 1은 단일 객체의 변화, 레벨 2는 객체 간의 상호작용, 레벨 3은 환경 전체에 영향을 미치는 복합적인 변화를 다룬다. 이를 통해 모델이 단순한 움직임을 흉내 내는 것인지, 아니면 '공을 던지면 유리가 깨진다'와 같은 고차원적인 물리적 인과 관계를 임베딩 공간에서 올바르게 계산하고 있는지를 검증한다.

특히 Omni-Metric은 단순히 최종 결과물만 보는 것이 아니라, 중간 상태의 변화 궤적(Trajectory)이 물리 법칙에 부합하는지를 측정한다. 예를 들어 로봇 팔이 물체를 집어 옮길 때, 물체의 위치 변화가 로봇의 움직임과 동기화되는지를 정밀하게 분석한다. 이러한 접근은 월드 모델이 단순한 영상 생성기를 넘어 실제 물리 세계를 모방하는 에이전트로 진화하는 데 필수적인 평가 지표를 제공한다.

방법론

Omni-WorldSuite는 데이터셋 기반(Dataset-grounded) 및 개념 기반(Concept-driven)의 두 가지 전략으로 프롬프트를 생성한다. 데이터셋 기반 방식은 실제 주행 데이터(DriveLM)나 로봇 조작 데이터(InternData-A1)에서 카메라 궤적과 첫 프레임을 추출하여 현실성을 확보한다. 개념 기반 방식은 GPT-5와 같은 LLM을 활용해 물리 법칙, 상호작용 프로토타입을 설계하고 FLUX.1 등으로 고품질 초기 프레임을 합성하여 검증하는 파이프라인을 거친다.

Omni-Metric은 세 가지 핵심 축으로 구성된다. 첫째, Generated Video Quality는 VBench 지표를 활용해 깜빡임(Flickering)과 움직임의 부드러움을 측정한다. 둘째, Camera-Object Controllability는 모델이 주어진 카메라 궤적을 정확히 따르면서도 객체의 정체성을 유지하는지 평가한다. 셋째, Interaction Effect Fidelity는 행동이 유발한 효과가 물리적으로 타당한지를 VLM 기반의 시맨틱 검증으로 확인한다. InterStab-L 지표는 두 프레임 I_i, I_j의 유사도를 측정하기 위해 SSIM(Structural Similarity Index)과 CLIP의 시각 인코더 출력값인 φ(I)의 코사인 유사도를 평균 내어 계산한다. [두 프레임 이미지 입력 → 구조적 유사도와 의미적 유사도 합산 후 2로 나눔 → 0~1 사이의 유사도 값 산출] 이 값은 영상이 진행되는 동안 시각적 정체성이 얼마나 잘 유지되는지를 나타낸다.

최종 점수인 AgenticScore는 에이전트 기반 통합 프레임워크를 통해 산출된다. 각 평가 지표를 독립적인 에이전트로 취급하고, MLLM이 프롬프트의 의미적 중요도에 따라 각 지표의 가중치(w1, w2, w3)를 동적으로 할당하여 합산한다. [각 지표 점수 입력 → MLLM의 가중치 결정 및 곱셈 연산 → 최종 AgenticScore 출력] 과정을 통해 프롬프트 특성에 맞는 유연한 평가가 가능해진다.

주요 결과

총 18개의 모델을 평가한 결과, 이미지-투-비디오(IT2V) 패러다임이 텍스트-투-비디오(T2V)보다 월드 모델링 잠재력이 높음을 확인했다. 특히 Wan2.2 모델은 75.92%의 AgenticScore를 기록하며 전체 모델 중 가장 우수한 성능을 보였다. 이는 풍부한 조건부 입력(이미지)이 환경 상태를 정의하는 데 유리함을 시사한다.

상호작용 효과 충실도(Interaction Effect Fidelity) 측면에서는 대다수 모델이 물리적 인과 관계 유지에 어려움을 겪었다. 예를 들어 WonderWorld는 장기적 일관성(InterStab-L)에서는 높은 점수를 받았으나, 비대상 영역의 안정성(InterStab-N)은 24.89%로 급격히 떨어지는 모습을 보였다. 이는 복잡한 카메라 스케줄링과 물리적 논리를 동시에 유지하는 것이 현재 기술의 주요 과제임을 보여준다.

카메라 제어 성능에서는 WonderWorld가 96.12%의 압도적인 점수를 기록하며 다른 모델들을 크게 앞섰다. 반면 객체 제어(Object Control) 능력에서는 Cosmos(94.90%)와 Wan2.2(94.01%)가 우수한 성적을 거두어, 모델별로 강점을 가진 영역이 뚜렷하게 구분됨이 나타났다.

실무 활용

이 벤치마크는 자율주행, 로봇 공학, 게임 개발 분야에서 사용되는 월드 모델의 신뢰성을 검증하는 데 즉시 활용될 수 있습니다. 개발자는 자신의 모델이 물리 법칙을 얼마나 잘 준수하는지 정량적으로 파악하고 부족한 부분을 집중적으로 개선할 수 있습니다.

자율주행 AI의 돌발 상황 대응 및 시뮬레이션 정확도 평가
로봇 조작 에이전트의 물체 상호작용 물리적 타당성 검증
대화형 게임 엔진의 환경 변화 생성 능력 벤치마킹
비디오 생성 모델의 물리적 일관성 개선을 위한 진단 도구

기술 상세

Omni-Metric은 구조화된 정보 추출을 위해 GroundingDINO와 SAM을 사용하여 객체 궤적을 추출하고, RAFT를 통해 광학 흐름(Optical Flow)을 계산하여 동적 변화를 캡처한다. 이를 통해 픽셀 단위의 변화를 물리적 움직임으로 해석할 수 있는 기반을 마련한다.

InterStab-N은 타겟 객체를 제외한 영역의 안정성을 측정하기 위해 광학 흐름의 크기인 ||Flow_t(x)||를 계산한다. [프레임 내 비대상 영역의 픽셀 이동 벡터 입력 → 전체 시간 T와 영역 면적 |N|으로 평균 연산 수행 → 움직임 에너지 E_non 산출 → 지수 함수를 통해 0~1 사이의 안정성 점수로 변환] 이 값이 높을수록 상호작용과 무관한 배경이 불필요하게 흔들리지 않고 안정적임을 의미한다.

InterCov와 InterOrder 지표는 VLM을 활용해 인과적 충실도를 검증한다. InterCov는 행동에 영향을 받은 객체가 의도된 대로 반응했는지를 이진 신호로 확인하며, InterOrder는 사건의 발생 순서가 정답 시퀀스(Ground-truth)와 일치하는지를 검증하여 시간적 논리 구조를 평가한다.

한계점

Omni-WorldSuite는 다양한 물리 법칙과 시나리오를 다루지만, 개방형 세계의 복잡한 상호작용이나 초장기(Long-horizon), 고역동성(Highly dynamic) 환경을 완벽히 포착하기에는 한계가 있음. 또한 현재는 자동화된 지표 위주이며, 향후 인간의 판단과 일치하는 평가 결과를 추가로 보완할 계획임.

키워드

World Model(월드 모델)4D Generation(4D 생성)Interaction-Centric Evaluation(상호작용 중심 평가)Causal Consistency(인과적 일관성)Omni-WorldBench(옴니 월드벤치)AgenticScore(에이전틱 스코어)

Omni-WorldBench: 월드 모델을 위한 포괄적인 상호작용 중심 평가 벤치마크

왜 중요한가

핵심 기여

상호작용 중심의 4D 월드 모델 벤치마크 Omni-WorldBench 제안

월드 모델이 상호작용 행동에 따라 공간적 구조와 시간적 진화를 얼마나 잘 반영하는지 평가하는 최초의 포괄적 프레임워크이다.

3단계 상호작용 계층을 포함한 Omni-WorldSuite 구축

단일 객체 변화부터 전역적 환경 변화까지 아우르는 3단계 계층 구조의 1,068개 프롬프트를 통해 모델의 다각적 대응 능력을 검증한다.

MLLM 기반의 적응형 통합 지표 AgenticScore 도입

영상 품질, 제어력, 상호작용 충실도를 독립적으로 측정하고 MLLM을 통해 프롬프트 맥락에 맞는 가중치를 부여하여 최종 점수를 산출한다.

18개 주요 월드 모델에 대한 광범위한 벤치마킹 수행

Wan2.2, Cosmos 등 최신 모델들을 평가하여 이미지 조건부 입력이 월드 모델링 성능 향상에 핵심적임을 입증했다.

Omni-WorldBench: 월드 모델을 위한 포괄적인 상호작용 중심 평가 벤치마크

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

Omni-WorldBench: 월드 모델을 위한 포괄적인 상호작용 중심 평가 벤치마크

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드