핵심 요약
기존 로봇 학습은 실제 환경 데이터 수집이나 미세 조정이 필수적이라고 여겨졌으나, 이 논문은 대규모 합성 데이터만으로도 실제 세계로의 제로샷 전이가 가능함을 증명했다. 이는 로봇 학습의 데이터 수집 비용을 획기적으로 낮추고 범용 로봇 모델 개발의 새로운 방향을 제시한다.
왜 중요한가
기존 로봇 학습은 실제 환경 데이터 수집이나 미세 조정이 필수적이라고 여겨졌으나, 이 논문은 대규모 합성 데이터만으로도 실제 세계로의 제로샷 전이가 가능함을 증명했다. 이는 로봇 학습의 데이터 수집 비용을 획기적으로 낮추고 범용 로봇 모델 개발의 새로운 방향을 제시한다.
핵심 기여
MolmoBot-Engine 파이프라인 구축
로봇, 작업, 환경 전반에 걸쳐 절차적으로 대규모 합성 데이터를 생성하는 오픈 소스 엔진을 개발했다.
180만 개의 전문가 궤적 데이터셋 공개
9만 4천 개 이상의 환경과 1만 1천 개의 고유 물체를 포함하는 MolmoBot-Data를 구축하여 연구 커뮤니티에 제공했다.
VLM 기반의 고성능 정책 모델 설계
Molmo2 VLM 백본과 DiT 기반 Flow-matching 액션 헤드를 결합하여 시각적 이해와 정교한 제어를 동시에 달성했다.
실제 세계 제로샷 전이 성능 입증
실제 로봇 데이터 없이 학습했음에도 불구하고, 테이블탑 조작 작업에서 기존 SOTA 모델인 π0.5 대비 2배 이상의 성공률을 기록했다.
핵심 아이디어 이해하기
기존 로봇 학습의 가장 큰 걸림돌은 시뮬레이션과 현실의 간극인 Sim-to-Real Gap이다. 시뮬레이션은 현실의 복잡한 물리 법칙과 시각적 다양성을 완벽히 모사하기 어렵기 때문에, 가상 세계에서만 학습한 로봇은 실제 환경에서 오작동하기 일쑤였다. 이 논문은 이 문제를 '데이터의 규모와 다양성'으로 정면 돌파한다.
핵심 아이디어는 단순히 시뮬레이션 데이터를 많이 만드는 것이 아니라, 수만 개의 서로 다른 방 구조, 수천 개의 물체, 다양한 조명 조건을 절차적으로 생성하여 모델이 특정 환경에 과적합되지 않게 만드는 것이다. 이는 딥러닝의 일반화 원리와 맞닿아 있으며, 모델이 특정 픽셀 패턴이 아닌 '물체를 집어 올리는 물리적 본질'을 학습하도록 유도한다.
결과적으로 모델은 한 번도 보지 못한 실제 주방이나 사무실에서도 시뮬레이션에서 배운 물리적 상호작용 원리를 그대로 적용할 수 있게 된다. 이는 로봇 학습이 실제 데이터 수집이라는 병목 현상에서 벗어나, 시뮬레이션 스케일링만으로도 지능을 확장할 수 있음을 의미한다.
방법론
MolmoBot-Engine은 MuJoCo 시뮬레이터를 기반으로 20만 개 이상의 MolmoSpaces 장면에서 데이터를 생성한다. 각 에피소드마다 조명, 텍스처, 물리적 마찰 계수 등을 무작위로 설정하는 Domain Randomization을 적용한다. 전문가 궤적은 역운동학(IK) 기반의 보간법과 CuRobo를 이용한 충돌 방지 경로 계획 알고리즘을 통해 생성된다.
모델 아키텍처인 MolmoBot은 Molmo2-4B VLM을 기반으로 한다. 시각 인코더인 SigLIP2가 입력 이미지를 토큰화하면, 언어 모델 백본이 이를 텍스트 명령과 함께 처리한다. 여기에 DiT(Diffusion Transformer) 기반의 액션 헤드를 레이어별로 결합(Layerwise Coupling)하여 백본의 중간 상태 정보를 직접 참조하도록 설계했다.
액션 생성 과정에서는 Flow-matching 기법을 사용한다. [현재 관측 이미지 + 로봇 상태 + 텍스트 명령]을 입력으로 받아 [DiT 헤드 내에서 노이즈 제거 연산]을 수행하여 [16단계의 미래 관절 위치 궤적]을 출력한다. 이 값은 로봇의 관절이 시간에 따라 어떻게 움직여야 하는지를 나타내는 수치적 목표가 되며, 로봇은 이를 따라 부드럽고 정교한 조작을 수행한다.
주요 결과
실제 세계 DROID 벤치마크 평가 결과, MolmoBot은 테이블탑 집기 및 놓기(Pick-and-place) 작업에서 79.2%의 성공률을 기록했다. 이는 대규모 실제 데이터를 학습한 SOTA 모델인 π0.5의 39.2%를 두 배 이상 앞지른 수치이다. 특히 동일한 아키텍처를 사용하더라도 MolmoBot-Data로 학습한 모델이 기존 데이터셋 학습 모델보다 월등한 성능을 보였다.
모바일 조작 실험에서도 Rainbow Robotics RB-Y1 로봇을 사용하여 문 열기, 서랍 열기 등의 복잡한 작업을 성공적으로 수행했다. 시뮬레이션 평가에서는 Pick MSProc 작업에서 92.0%의 높은 성공률을 보였으며, 광원이나 렌더링 방식이 다른 환경에서도 60% 이상의 성능을 유지하며 강력한 강건성(Robustness)을 입증했다.
Ablation Study를 통해 데이터 스케일링의 효과를 분석한 결과, 학습 데이터의 궤적 수와 물체 종류가 늘어날수록 실제 세계에서의 성능이 선형적으로 향상됨이 확인됐다. 반면 환경(방 구조)의 다양성은 일정 수준 이상에서 성능 향상이 포화되는 양상을 보여, 조작 작업에서는 물체와의 상호작용 다양성이 더 중요함을 시사했다.
실무 활용
실제 로봇 데이터 수집 없이 시뮬레이션만으로 고성능 조작 모델을 구축할 수 있어, 로봇 도입 비용과 시간을 획기적으로 단축할 수 있다. 오픈 소스로 공개된 엔진과 데이터셋을 활용해 다양한 산업용 로봇에 즉시 적용 가능하다.
- 가정 내 가사 보조 로봇의 물건 정리 및 수납 자동화
- 물류 창고에서 수천 종의 비정형 물체를 분류하고 옮기는 피킹 시스템
- 제조 현장에서 새로운 부품 조작을 위한 로봇의 신속한 제로샷 배치
기술 상세
MolmoBot은 SigLIP2 비전 인코더를 동결(Freeze)한 상태에서 학습하여 시뮬레이션의 렌더링 아티팩트에 과적합되는 것을 방지한다. VLM 백본은 Qwen 기반의 Molmo2-4B를 사용하며, 최대 3프레임의 과거 영상을 입력으로 받아 시간적 맥락을 파악한다. 액션 헤드는 16단계의 액션 청크(Action Chunk)를 한 번에 예측하여 제어의 일관성을 높였다.
아키텍처의 핵심인 레이어별 결합은 VLM의 각 트랜스포머 블록 출력을 액션 헤드의 대응하는 블록에 Cross-attention으로 주입하는 방식이다. 이를 통해 저수준의 시각 특징부터 고수준의 의미론적 정보까지 액션 생성에 모두 활용할 수 있다. 또한 로봇의 현재 관절 상태(Proprioception)를 MLP를 통해 임베딩하여 VLM 시퀀스 끝에 추가함으로써 폐루프(Closed-loop) 제어를 구현했다.
학습 시에는 Behavior Cloning 목적 함수를 사용하며, 1024의 대규모 배치 사이즈로 20만 스텝 이상 학습을 진행한다. 특히 성공적인 파지(Pick)나 작업 완료 시점의 데이터를 업샘플링(Up-sampling)하여 모델이 작업의 핵심 성공 요인을 더 잘 학습하도록 보정했다.
한계점
현재 시뮬레이션 엔진의 한계로 인해 옷감이나 밧줄 같은 변형 가능한 물체(Deformable objects)나 액체 조작은 다루지 못한다. 또한 실제 실험에서 특정 방향(오른쪽)에 위치한 문 손잡이 조작 시 데이터 부족으로 인한 실패가 관찰되어, 데이터 생성 시 더 세밀한 분포 제어가 필요함이 확인됐다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료