핵심 요약
기존 로봇 AI(VLA)는 학습 데이터와 조금만 다른 환경에서도 쉽게 실패하는 한계가 있었다. 이 논문은 비디오 데이터를 통해 세상의 물리 법칙을 먼저 배운 '세계 행동 모델(WAM)'이 이러한 변화에 훨씬 더 강하다는 것을 입증하며, 미래 로봇 제어의 새로운 방향성을 제시한다.
왜 중요한가
기존 로봇 AI(VLA)는 학습 데이터와 조금만 다른 환경에서도 쉽게 실패하는 한계가 있었다. 이 논문은 비디오 데이터를 통해 세상의 물리 법칙을 먼저 배운 '세계 행동 모델(WAM)'이 이러한 변화에 훨씬 더 강하다는 것을 입증하며, 미래 로봇 제어의 새로운 방향성을 제시한다.
핵심 기여
RoboTwin 2.0-Plus 벤치마크 구축
7가지 차원의 시각 및 언어 섭동을 포함한 이족 로봇 조작 평가 환경을 구축하여 모델의 실질적인 강건성을 측정할 수 있는 기반을 마련했다.
WAM과 VLA의 포괄적 비교 분석
최신 VLA 모델인 pi0.5와 LingBot-VA, Cosmos-Policy 등 최신 WAM 모델들의 성능을 체계적으로 대조하여 각 패러다임의 장단점을 규명했다.
WAM의 우수한 환경 적응력 입증
WAM이 노이즈, 조명, 레이아웃 변화 등 다양한 환경 변화에서 VLA보다 일관되게 높은 성공률을 기록하며 시공간적 사전 지식의 중요성을 확인했다.
추론 효율성 및 지연 시간 한계 도출
WAM이 강건성 면에서는 뛰어나지만, 확산 모델 기반의 특성상 VLA 대비 최소 4.8배 느린 추론 속도를 가짐을 정량적으로 분석하여 향후 과제를 제시했다.
핵심 아이디어 이해하기
기존의 VLA 모델은 주로 정적인 이미지와 텍스트 쌍으로 학습된 모델을 기반으로 한다. 이는 로봇이 무엇을 해야 하는지는 잘 이해하게 하지만, 행동에 따른 물리적 변화나 시간적 연속성을 이해하는 데는 한계가 있다. 마치 사진만 보고 운전을 배우는 것과 비슷하여, 실제 환경의 미세한 변화에 취약한 모습을 보인다.
반면 WAM은 대규모 비디오 데이터를 통해 세상이 어떻게 움직이는지를 먼저 학습한 '세계 모델'을 기반으로 한다. 비디오 예측 과정을 통해 물리적 인과관계와 시공간적 특징을 미리 익혔기 때문에, 로봇의 행동 결과를 더 정확히 예측하고 외부 방해 요소에 휘둘리지 않는다.
결과적으로 WAM은 학습하지 않은 낯선 환경에서도 물체가 어떻게 움직여야 하는지에 대한 근본적인 이해를 바탕으로 동작한다. 비록 계산 복잡도가 높아 실행 속도는 느리지만, 실제 현장 도입에 필수적인 강건성 측면에서 VLA를 압도하는 성능을 보여준다.
방법론
전체적인 접근 방식은 비디오 생성 모델을 로봇 정책의 백본으로 활용하는 것이다. WAM은 대규모 인터넷 비디오 데이터로 사전 학습된 비디오 확산 모델을 기반으로 하며, 로봇의 현재 상태와 목표 언어 지시를 입력받아 미래의 시각적 상태나 잠재 표현을 생성하고 이를 로봇의 관절 각도나 집게 동작으로 디코딩한다.
핵심 메커니즘은 시공간적 사전 지식의 활용이다. [입력 이미지 및 행동 쿼리 → 비디오 확산 모델의 역과정(Denoising) 수행 → 미래 상태 예측 및 행동 토큰 생성 → 로봇 제어값 출력] 순으로 연산이 이루어진다. 이 과정에서 모델은 단순히 다음 동작을 맞추는 것이 아니라, 물리적으로 타당한 미래 장면을 상상하며 그에 맞는 행동을 도출한다.
학습 전략은 크게 두 단계로 나뉜다. 첫째는 작업 불가지론적 비디오 사전 학습이며, 둘째는 특정 로봇 작업에 맞춘 미세 조정이다. 특히 LingBot-VA와 같은 모델은 비디오 예측과 행동 추론을 하나의 통합된 트랜스포머 구조 내에서 처리하여 인과적 일관성을 유지한다.
주요 결과
RoboTwin 2.0-Plus 벤치마크에서 LingBot-VA는 92.1%의 기본 성공률을 기록했으며, 다양한 섭동 환경에서도 평균 74.2%의 성공률을 유지했다. 이는 최신 VLA 모델인 pi0.5의 평균 성공률 58.6%보다 약 15%p 이상 높은 수치이다. 특히 조명 변화(89.0%)와 배경 변화(91.3%) 환경에서 압도적인 강건성을 보였다.
LIBERO-Plus 벤치마크에서도 Cosmos-Policy가 82.2%의 전체 성공률을 기록하며 우위를 점했다. pi0.5는 85.7%로 특정 작업에서 선전했으나, 시각적 노이즈나 복잡한 레이아웃 환경에서는 WAM 계열 모델들이 더 일관된 성능을 보여주었다.
추론 속도 분석 결과, pi0.5는 청크당 63ms의 빠른 속도를 보인 반면, WAM 모델들은 확산 모델의 디노이징 단계로 인해 최소 300ms에서 최대 5230ms까지 소요되어 실시간 제어 적용을 위한 최적화가 시급한 과제로 나타났다.
기술 상세
WAM의 아키텍처는 주로 Stable Video Diffusion(SVD)이나 Wan2.2와 같은 비디오 생성 백본을 채택한다. 이들은 Mixture-of-Transformers(MoT) 구조를 사용하여 비디오 스트림과 행동 스트림을 분리하거나 통합하여 처리한다. 핵심은 비디오 모델의 잠재 공간에서 로봇의 행동을 직접 디코딩하는 역동학 모델(IDM) 구조를 취한다는 점이다.
수학적으로 WAM은 현재 잠재 상태에서 미래 상태를 예측하는 확률 분포를 학습한다. 행동은 예측된 미래 상태와 현재 상태 사이의 관계를 설명하는 함수를 통해 도출된다. 이러한 구조는 모델이 시각적 변화의 원인을 로봇의 행동과 직접 연결 짓도록 강제하여 물리적 타당성을 확보한다.
VLA와의 결정적 차이는 사전 학습 데이터의 성격에 있다. VLA는 정적 이미지-텍스트 데이터를 주로 사용하지만, WAM은 물리적 변화가 포함된 동영상 데이터를 사용한다. 이로 인해 WAM은 별도의 복잡한 기하학적 접지 학습 없이도 환경 변화에 대응하는 능력을 자연스럽게 습득하며, 이는 실험을 통해 증명되었다.
한계점
WAM의 가장 큰 한계는 높은 계산 비용으로 인한 느린 추론 속도이다. 또한 카메라 시점이 극단적으로 변하거나 로봇의 초기 상태가 학습 범위를 크게 벗어날 경우 비디오 사전 지식의 효과가 제한적이라는 점이 확인되었다.
실무 활용
환경 변화가 잦은 실제 제조 현장이나 가정용 로봇 서비스에 WAM의 강건한 제어 능력을 활용할 수 있다. 다만 현재의 느린 추론 속도를 해결하기 위한 가속화 기술 적용이 병행되어야 한다.
- 조명 조건이 수시로 변하는 창고 환경에서의 물류 로봇 조작
- 다양한 가재도구가 섞여 있는 복잡한 주방에서의 가사 지원 로봇
- 카메라 노이즈나 진동이 발생하는 실외 환경에서의 정밀 부품 조립
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.