핵심 요약
기존 로봇 제어 모델은 2D 이미지 기반의 평면적 이해에 그쳐 물리적 세계의 입체적인 구조를 파악하는 데 한계가 있었다. 이 논문은 비디오 생성 모델의 강력한 시각적 지식을 활용해 미래의 3D 구조를 예측하면서도, 비동기식 계산 방식을 도입해 로봇이 실시간으로 빠르게 반응할 수 있는 통합 프레임워크를 제시했다.
왜 중요한가
기존 로봇 제어 모델은 2D 이미지 기반의 평면적 이해에 그쳐 물리적 세계의 입체적인 구조를 파악하는 데 한계가 있었다. 이 논문은 비디오 생성 모델의 강력한 시각적 지식을 활용해 미래의 3D 구조를 예측하면서도, 비동기식 계산 방식을 도입해 로봇이 실시간으로 빠르게 반응할 수 있는 통합 프레임워크를 제시했다.
핵심 기여
통합 4D 세계 액션 모델 X-WAM 제안
고해상도 비디오 생성, 3D 공간 재구성, 로봇 정책 실행 및 실시간 배포라는 네 가지 목표를 단일 아키텍처 내에서 동시에 달성하는 통합 모델을 구축했다.
경량화된 구조적 깊이 적응 모듈
기존 Diffusion Transformer(DiT)의 마지막 블록들을 복제하여 별도의 깊이 예측 브랜치를 구성함으로써, 연산량 폭증 없이 2D 비디오 데이터로부터 3D 공간 정보를 효과적으로 추출했다.
Asynchronous Noise Sampling(ANS) 기법 도입
비디오 생성에는 많은 단계의 디노이징이 필요하지만 로봇 액션 결정에는 적은 단계만 필요하다는 점에 착안하여, 추론 시 액션을 먼저 빠르게 디코딩하고 비디오 렌더링은 이후에 완료하는 비동기 스케줄링을 구현했다.
대규모 로봇 데이터셋 사전 학습
5,800시간 이상의 실제 로봇 및 시뮬레이션 데이터를 활용해 학습되었으며, RoboCasa 및 RoboTwin 2.0 벤치마크에서 기존 SOTA 모델들을 상회하는 성능을 입증했다.
핵심 아이디어 이해하기
기존의 로봇 제어 모델은 주로 Transformer 기반의 아키텍처를 사용하여 현재 상태를 입력받고 다음 액션을 예측하는 방식에 집중했다. 하지만 이러한 방식은 로봇이 움직임에 따라 주변 환경의 3D 기하학적 구조가 어떻게 변할지에 대한 물리적 이해가 부족하여 복잡한 조작 작업에서 한계를 보였다.
X-WAM은 비디오 생성 모델이 이미 세상의 물리 법칙과 시각적 변화를 잘 알고 있다는 점을 활용한다. 모델이 단순히 다음 동작을 계산하는 것을 넘어, 동작의 결과로 나타날 미래의 3D 장면(RGB-D 비디오)을 함께 '상상'하도록 만든다. 이때 3D 정보를 처리하기 위해 입력 시퀀스를 무작정 늘리는 대신, 기존 DiT의 가중치를 보존하면서 마지막 레이어만 살짝 변형해 깊이 정보를 추출하는 효율적인 구조를 선택했다.
결과적으로 로봇은 자신이 취할 행동이 미래의 3D 공간에서 어떤 결과를 초래할지 예측하며 움직이게 된다. 이는 로봇에게 '공간 지능'을 부여하는 것과 같으며, 실험 결과 3D 공간에 대한 명시적인 학습이 로봇의 작업 성공률을 직접적으로 향상시킴이 확인됐다.
방법론
X-WAM은 Wan2.2-5B 비디오 생성 모델을 기반으로 하며, 입력으로 언어 지시어, 초기 로봇 상태, 멀티뷰 RGB 이미지를 받는다. 이 정보들은 Causal VAE와 MLP를 통해 임베딩된 후 하나의 통합된 시퀀스로 결합되어 Diffusion Transformer에 입력된다.
구조적으로는 Lightweight Depth Adaptation을 사용한다. N개의 DiT 블록 중 처음 N-M개는 공유하고, 마지막 M개의 블록을 메인 브랜치와 깊이 브랜치로 나눈다. 깊이 브랜치는 메인 브랜치의 정보를 Cross-Attention으로 읽어오지만 메인 브랜치에는 영향을 주지 않는 Unilateral Attention 구조를 채택하여 기존 비디오 생성 능력을 보존한다.
학습 및 추론에는 Asynchronous Noise Sampling(ANS)을 적용한다. 추론 시 액션은 Ta 단계(예: 10단계)만에 노이즈를 제거하여 즉시 로봇에 전달하고, 비디오는 To 단계(예: 50단계)까지 디노이징을 지속한다. 학습 시에는 이 비동기적 분포를 반영하기 위해 비디오와 액션의 노이즈 레벨을 Joint Distribution에서 샘플링하여 추론 환경과의 괴리를 최소화한다.
관련 Figure

왼쪽 아키텍처는 공유 블록 이후 메인 브랜치와 깊이 브랜치가 교차 주의 집중을 통해 정보를 주고받는 구조를 설명한다. 오른쪽 그래프는 추론 시 액션 노이즈는 빠르게 제거되어 Ta 시점에 준비되는 반면, 비디오 노이즈는 To 시점까지 정교하게 제거되는 과정을 시각화하여 효율성을 강조한다.
X-WAM의 전체 모델 아키텍처와 비동기 노이즈 샘플링(ANS) 메커니즘을 보여주는 다이어그램이다.
주요 결과
RoboCasa 벤치마크의 24개 조작 작업에서 평균 79.2%의 성공률을 기록하며, 기존 최고 성능 모델인 Cosmos Policy(67.1%)를 12.1%p 차이로 앞질렀다. RoboTwin 2.0 벤치마크에서도 Clean 설정 89.8%, Randomized 설정 90.7%의 성공률을 보여 환경 변화에 대한 강한 견고성을 입증했다.
4D 재구성 품질 측면에서도 DreamZero와 Depth Anything 3를 결합한 2단계 방식보다 PSNR이 2.34dB 향상되었으며, 점군(Point Cloud)의 정확도를 나타내는 Chamfer Distance는 0.0680에서 0.0049로 대폭 개선되었다. 이는 통합 모델이 사후적인 깊이 추정보다 훨씬 정확한 기하학적 예측을 수행함을 의미한다.
Ablation Study를 통해 깊이 예측 브랜치를 제거할 경우 성공률이 67.8%에서 63.0%로 하락함을 확인하여, 명시적인 3D 공간 모델링이 로봇의 조작 성능 향상에 필수적임을 증명했다.
기술 상세
X-WAM의 아키텍처는 Flow Matching 프레임워크를 기반으로 하며, Wan2.2-TI2V-5B 모델을 파인튜닝했다. 상태(State)는 16차원, 액션(Action)은 14차원의 벡터로 정의되어 멀티뷰 비디오 토큰과 함께 처리된다. 시간적 일관성을 위해 RoPE(Rotary Position Embeddings)를 적용했으며, 멀티뷰 지원을 위해 각 뷰에 대한 학습 가능한 View Embedding을 추가했다.
깊이 브랜치는 Inverse Depth를 회귀(Regression)하도록 MSE Loss로 학습되며, 전체 손실 함수는 비디오, 상태, 액션, 깊이 손실의 가중 합으로 구성된다. ANS의 학습 단계에서는 p=0.5의 확률로 액션 조건부 비디오 생성 모드와 비동기 공동 생성 모드를 혼합하여 샘플링한다. 실제 로봇 배포 시에는 Real-Time Chunking 기술을 적용해 약 300ms의 지연 시간으로 실시간 제어를 구현했다.
한계점
현재 프레임워크는 고정된 길이의 관찰 윈도우만을 처리하며 과거의 이력 정보나 자기회귀적(Autoregressive) 전개를 포함하지 않아, 아주 긴 시간의 작업 흐름을 파악하는 데 한계가 있을 수 있다. 또한 전용 정책 모델에 비해 추론 지연 시간이 상대적으로 높아 실시간성 개선을 위한 증류(Distillation) 등의 추가 연구가 필요하다.
실무 활용
실제 물리 환경에서 작동하는 서비스 로봇이나 산업용 협동 로봇의 지능형 제어 시스템으로 활용 가능하다. 특히 3D 공간 인지가 필요한 정밀한 조작 작업에 강점이 있다.
- 주방 가전 조작 및 식기 정리 등 복잡한 가사 지원 로봇 서비스
- 멀티뷰 카메라를 장착한 양팔 로봇의 정밀 부품 조립 및 포장 공정
- 비디오 생성을 통한 로봇의 작업 결과 사전 시뮬레이션 및 안전성 검증
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.