핵심 요약
인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.
왜 중요한가
인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.
핵심 기여
iWorld-Bench 벤치마크 구축
14개의 대표적인 세계 모델을 평가하기 위해 4,900개의 테스트 샘플과 9개의 평가 지표를 포함하는 종합적인 벤치마크를 설계했다.
대규모 다중 시점 데이터셋 구축
12개의 오픈소스 데이터셋과 4개의 시뮬레이터를 활용하여 33만 개의 비디오 클립을 확보하고, 이 중 2,100개의 고품질 샘플을 선별하여 학습 및 평가에 활용했다.
통합 액션 생성 프레임워크
텍스트, 키보드, 궤적 등 서로 다른 입력 모달리티를 81개의 기본 동작으로 변환하여 모델 간 공정한 비교가 가능한 모달리티 불가지론적 인코딩 방식을 도입했다.
핵심 아이디어 이해하기
기존의 세계 모델 평가는 주로 텍스트 입력에 따른 단순 비디오 생성 능력에 치중되어 있어, 에이전트가 실제 환경에서 수행하는 복잡한 물리적 상호작용과 그에 따른 환경의 변화를 시뮬레이션하는 능력을 측정하기 어려웠다. 특히 모델마다 입력받는 액션의 형태(텍스트, 좌표, 키보드 값 등)가 달라 객관적인 성능 비교가 불가능한 구조적 한계가 존재했다.
iWorld-Bench는 이러한 문제를 해결하기 위해 모든 액션 입력을 6자유도(6-DoF) 기반의 통합된 수학적 표현으로 변환하는 Action Generation Framework를 핵심 아이디어로 삼는다. 이는 마치 서로 다른 언어를 사용하는 사람들이 공통의 수식으로 소통하듯, 다양한 입력 신호를 모델이 이해할 수 있는 표준화된 물리적 움직임으로 매핑하여 동일 선상에서 평가할 수 있게 한다.
결과적으로 이 프레임워크를 통해 모델이 단순히 시각적으로 그럴듯한 영상을 만드는지를 넘어, 특정 액션에 대해 물리적으로 정합성이 있는 반응을 보이는지, 그리고 이전에 방문했던 장소를 기억하여 일관된 환경을 다시 생성할 수 있는지(Memory Ability)를 정밀하게 검증할 수 있게 되었다.
관련 Figure

다양한 입력 모달리티(텍스트, 원핫, 행렬 등)가 통합 프레임워크를 통해 어떻게 처리되는지 보여준다. 4가지 시점(UGV, UAV, 인간, 로봇)과 기상 조건 등 벤치마크의 다양성을 한눈에 파악할 수 있게 돕는다.
iWorld-Bench의 전반적인 구성과 4가지 난이도별 액션 제어 및 메모리 능력을 시각화한 개요도이다.
방법론
데이터 구축을 위해 12개의 오픈소스 데이터셋과 4개의 시뮬레이터(aerial_VLN, UAV_ON, Openfly, Embodied_City)에서 2,780만 개의 이미지를 수집했다. 수집된 데이터는 좌표계 통일 및 6-DoF/7-element 포맷 변환을 거쳐 33만 개의 비디오 클립으로 표준화되었으며, GPT-4o를 활용한 VLM 보조 주석 달기와 인간 검수를 통해 고품질 라벨링을 완료했다.
Action Generation Framework는 Interactive Action Encoding과 Unified Encoding Mapping으로 구성된다. [임의의 모달리티 입력 → 81개의 기본 동작 사전 매핑 → 6-DoF 제어 신호 출력] 순으로 연산이 이루어지며, 이를 통해 텍스트 명령이나 키보드 입력이 실제 카메라의 이동 및 회전 값으로 변환되어 모델의 반응을 유도한다.
평가 지표는 생성 품질(Image Quality, Brightness Consistency 등), 궤적 추종(Motion Smoothness, Trajectory Accuracy 등), 메모리 능력(Memory Symmetry, Trajectory Alignment)의 세 가지 차원에서 총 9개를 정의했다. 특히 Memory Symmetry는 [왕복 경로의 프레임 쌍 입력 → 픽셀 단위 일치도 계산 → 루프 클로저 성공 여부 판단] 과정을 통해 모델의 장기적 일관성을 측정한다.
관련 Figure

12개의 데이터셋과 4개의 시뮬레이터로부터 얻은 원천 데이터를 어떻게 표준화된 iWorld-Bench 데이터셋으로 변환하는지 상세 단계를 보여준다. 특히 GPT-4o를 활용한 자동화된 라벨링 공정을 확인할 수 있다.
데이터 수집부터 통합, VLM 기반 주석 생성, 인간 검수로 이어지는 데이터 처리 파이프라인을 설명하는 다이어그램이다.
주요 결과
14개의 대표적인 세계 모델을 평가한 결과, HY-World 1.5가 평균 점수 0.7873으로 전체 1위를 차지했다. HY-World 1.5는 특히 메모리 능력과 궤적 추종에서 뛰어난 성능을 보였으며, 이는 연속적인 텍스트 묘사보다 이산적인 액션 신호를 사용하는 방식의 우수성을 입증한다.
텍스트 제어 모델인 CogVideoX-I2V는 시각적 일관성(Brightness Consistency 0.8988)에서는 높은 점수를 받았으나, 궤적 정확도(0.5950)에서는 상대적으로 낮은 성능을 보여 시각적 품질과 제어 가능성 사이의 트레이드오프 관계를 확인했다. 카메라 파라미터 제어 모델 중에서는 AC3D가 Trajectory Tolerance 0.9091을 기록하며 정밀한 제어 능력을 증명했다.
관련 Figure

모델별로 강점과 약점이 뚜렷하게 나타나며, 특히 시각적 품질과 궤적 정확도 사이의 균형을 맞춘 모델(HY-World 1.5 등)과 특정 분야에 치우친 모델을 시각적으로 비교 분석할 수 있다.
14개 모델의 성능을 8개 지표별로 비교한 레이더 차트이다.
기술 상세
iWorld-Bench의 아키텍처는 이질적인 데이터 소스를 통합하기 위해 4계층 구조(Modality, Category, Identity, Parameter layer)를 채택했다. 카메라 외부 파라미터는 변환 행렬, 쿼터니언, 6-DoF 벡터의 세 가지 상호 변환 가능한 형식으로 유지되어 하위 호환성을 극대화했다.
데이터 정제 과정에서는 시각적 이상 현상을 감지하기 위해 Brightness Stability와 Chromatic Mutation 지표를 사용한다. [연속 프레임 간 MSE 계산 → Z-score 기반 이상치 판별 → 임계값 초과 시 제거] 과정을 통해 벽 뚫림(wall-clipping)이나 렌더링 오류가 포함된 샘플을 자동으로 필터링하여 학습 데이터의 품질을 보장한다.
한계점
논문은 현재 벤치마크가 실시간 성능 평가와 초장기 일관성(long-horizon consistency) 평가 부분에서 개선의 여지가 있음을 명시하고 있으며, 향후 연구에서 이를 보완할 계획임을 밝히고 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.