핵심 요약
기존 로봇 정책 평가는 실제 로봇 실행이나 무거운 물리 시뮬레이션에 의존해 비용과 시간이 많이 소요됐다. dWorldEval은 이산 확산 모델을 활용해 가상 환경에서 로봇의 행동 결과를 정확히 예측함으로써, 수천 개의 작업과 환경에 대한 정책 평가를 효율적으로 확장할 수 있는 새로운 패러다임을 제시한다.
왜 중요한가
기존 로봇 정책 평가는 실제 로봇 실행이나 무거운 물리 시뮬레이션에 의존해 비용과 시간이 많이 소요됐다. dWorldEval은 이산 확산 모델을 활용해 가상 환경에서 로봇의 행동 결과를 정확히 예측함으로써, 수천 개의 작업과 환경에 대한 정책 평가를 효율적으로 확장할 수 있는 새로운 패러다임을 제시한다.
핵심 기여
통합 토큰 공간 기반의 dWorldEval 아키텍처
시각적 관찰, 언어 지시, 로봇 행동을 동일한 위상의 토큰으로 변환하여 단일 Transformer 네트워크에서 처리함으로써 행동 제어력을 극대화했다.
장기적 일관성을 위한 Sparse Keyframe Memory
과거의 주요 프레임을 저해상도 토큰으로 유지하는 메모리 기법을 도입하여, 긴 시간 범위의 시뮬레이션에서 발생할 수 있는 시공간적 왜곡과 드리프트 현상을 억제했다.
자동 성공 판정을 위한 Progress Token 도입
작업 완료도를 나타내는 이산적 진행률 토큰을 시각적 결과와 함께 예측하여, 외부 평가기 없이도 모델 스스로 작업의 성공 여부를 판정할 수 있게 했다.
행동 제어력 측정을 위한 Δ-LPIPS 지표 제안
단순한 이미지 유사도를 넘어 상태 변화의 충실도를 측정하는 새로운 메트릭을 통해 세계 모델이 입력된 행동 신호를 얼마나 정확히 반영하는지 정량화했다.
핵심 아이디어 이해하기
기존의 비디오 생성 기반 세계 모델은 로봇의 행동 신호를 단순한 부가 조건(Auxiliary Condition)으로 취급했다. 이로 인해 모델이 학습 데이터에 포함된 강력한 시각적 사전 지식에 의존하게 되어, 로봇이 잘못된 행동을 하더라도 결과적으로는 성공한 것처럼 보이는 '환각' 현상이 빈번하게 발생했다. Transformer가 Self-Attention을 통해 모든 입력 요소 간의 관계를 계산한다는 점에 착안하여, 로봇의 행동을 시각 데이터와 대등한 기본 토큰으로 통합했다.
이러한 통합 토큰 구조에서는 시각 토큰이 행동 토큰에 직접적으로 Attention을 수행하므로, 생성되는 다음 화면이 입력된 제어 신호에 종속되도록 강제된다. 또한, 긴 시간 동안의 일관성을 유지하기 위해 모든 과거 프레임을 참조하는 대신 핵심적인 과거 시점(Keyframe)만을 선별하여 참조함으로써 연산 효율성과 시공간적 안정성을 동시에 확보했다.
결과적으로 모델은 단순히 '그럴듯한 영상'을 만드는 것이 아니라, 특정 행동이 입력되었을 때 물리적으로 발생해야 하는 변화를 정확히 모사한다. 여기에 작업의 진행 상태를 숫자로 표현하는 토큰을 함께 학습시켜, 시뮬레이션이 끝나는 시점에 해당 숫자가 1.0에 도달했는지를 확인하는 것만으로도 자동화된 정책 평가가 가능해진다.
방법론
dWorldEval은 Masked Discrete Diffusion(MDD) 프레임워크를 기반으로 구축됐다. 시각적 관찰은 MAGVIT-v2, 언어 지시는 LLaDA, 연속적인 로봇 행동은 FAST 토크나이저를 사용하여 각각 이산적인 코드 시퀀스로 변환한다. 이 모든 토큰은 하나의 평탄화된 시퀀스로 결합되어 Transformer 기반의 노이즈 제거 네트워크(Denoising Network)의 입력으로 사용된다.
시공간적 일관성을 위해 Sparse Keyframe Memory를 운용한다. 고정된 간격 Δ로 샘플링된 K개의 과거 프레임을 저해상도(128²)로 인코딩하여 컨텍스트로 제공하며, 각 프레임에는 절대적 시간 인덱스를 텍스트 토큰 형태로 삽입하여 시간적 순서를 명시적으로 학습시킨다. 현재 관찰값은 객체 상호작용의 세부 사항을 포착하기 위해 고해상도(256²)를 유지한다.
학습 시에는 VLM(SEED-1.5VL)을 활용해 생성된 데이터에 진행률 라벨을 부여하는 Progress-as-text 메커니즘을 적용한다. [0, 1] 사이의 값을 0.2 단위의 이산 토큰으로 변환하여 타겟 시퀀스에 추가한다. 추론 시에는 Iterative Parallel Decoding을 통해 시각 토큰과 진행률 토큰을 동시에 샘플링하며, 최종 진행률 토큰이 '1.0'에 도달하면 해당 정책 실행을 성공으로 간주한다.
관련 Figure

다양한 모달리티가 단일 Transformer 내에서 어떻게 통합되는지 시각화한다. 특히 Sparse Keyframe History가 과거의 시각 정보를 토큰화하여 현재 예측의 앵커 역할을 수행하는 구조를 명확히 보여준다.
dWorldEval의 전체 아키텍처와 핵심 구성 요소(통합 토큰 공간, Sparse Memory, 진행률 토큰)를 보여주는 다이어그램이다.
주요 결과
LIBERO 벤치마크 실험 결과, dWorldEval은 기존 SOTA 모델인 WorldEval, Ctrl-World 대비 월등한 행동 제어력을 보였다. 특히 실패 궤적 데이터셋에서의 Δ-LPIPS 점수가 기존 모델들(0.416~0.701)보다 훨씬 낮은 0.352를 기록하여, 잘못된 행동에 따른 실패 장면을 환각 없이 정확히 생성함을 입증했다.
정책 랭킹 성능 측면에서 dWorldEval이 예측한 성공률과 실제 환경에서의 실행 성공률 사이의 피어슨 상관계수(Pearson r)는 약 0.9에 달했다. 이는 세계 모델을 통한 가상 평가가 실제 로봇 테스트를 높은 신뢰도로 대체할 수 있음을 의미한다. RoboTwin 및 실제 로봇(AgileX bimanual system) 환경에서도 시뮬레이션과 유사한 수준의 시각적 충실도(ΔLPIPS 0.31~0.36)를 유지하며 도메인 일반화 능력을 보여주었다.
관련 Figure

기존 모델들이 물체를 환각하거나 행동 지시를 무시하는 반면, dWorldEval은 실패 상황을 그대로 재현하고 역행동 시 원래 상태로 정확히 복귀하는 능력을 통해 시공간적 일관성을 입증한다.
dWorldEval과 기존 모델들의 행동 제어력 및 장기 일관성을 비교한 시각적 결과물이다.
기술 상세
dWorldEval은 MMaDAVLA-8B를 기반으로 한 32레이어, 32헤드 구조의 양방향 Transformer 아키텍처를 채택했다. 입력 시퀀스는 [History; Current Observation; Instruction; Action; Masked Target] 구조로 구성되며, Target 영역에는 다음 시점의 시각 토큰과 진행률 토큰이 포함된다. 손실 함수 계산 시 진행률 토큰에 가중치(wj=2)를 더 부여하여 작업 완료도 예측의 정확도를 높였다.
기존 모델들이 AdaLN이나 Cross-Attention으로 행동을 주입하던 방식과 달리, 본 연구는 Self-Attention 블록 내에서 모든 모달리티가 직접 상호작용하도록 설계했다. 이는 시각적 사전 지식이 제어 신호를 압도하는 현상을 방지하는 핵심 기전이다. 또한 가역적 행동 궤적(Forward-Inverse)을 이용한 Round-trip 일관성 테스트를 통해, Sparse Memory가 장기 실행 시의 누적 오차를 효과적으로 억제함을 수학적으로 검증했다.
한계점
논문은 Sparse Keyframe Memory를 사용함에도 불구하고 극도로 긴 시간 범위(Very long-horizon)의 작업에서는 여전히 미세한 시공간적 드리프트가 발생할 수 있음을 언급했다. 또한, 현재 모델은 256x256 해상도에 최적화되어 있어 더 높은 해상도가 필요한 정밀 조작 작업에서의 한계가 존재할 수 있다.
실무 활용
로봇 학습 파이프라인에서 실제 로봇을 구동하지 않고도 다양한 제어 알고리즘의 성능을 대규모로 사전 검증하는 가상 테스트베드로 활용 가능하다.
- 수천 개의 체크포인트 중 가장 성능이 우수한 로봇 정책 모델을 선별하는 자동 랭킹 시스템
- 실제 환경에서 발생하기 위험하거나 희귀한 실패 시나리오에 대한 로봇의 대응 능력 평가
- 다양한 카메라 각도와 로봇 형태(Morphology)에 따른 제어 정책의 견고성 테스트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.