핵심 요약
기존 로봇 제어 모델은 폐쇄적이거나 특정 하드웨어에 종속되어 실제 환경 배포에 한계가 있었다. MolmoAct2는 데이터, 학습 코드, 모델 가중치를 모두 공개한 완전 오픈소스 VLA 모델로, 저비용 로봇에서도 고성능 행동 추론이 가능함을 입증하여 로보틱스 연구의 민주화를 가속화한다.
왜 중요한가
기존 로봇 제어 모델은 폐쇄적이거나 특정 하드웨어에 종속되어 실제 환경 배포에 한계가 있었다. MolmoAct2는 데이터, 학습 코드, 모델 가중치를 모두 공개한 완전 오픈소스 VLA 모델로, 저비용 로봇에서도 고성능 행동 추론이 가능함을 입증하여 로보틱스 연구의 민주화를 가속화한다.
핵심 기여
Molmo2-ER 백본 및 특화 학습 레시피
공간 및 embodied 추론에 최적화된 3.3M 샘플 규모의 말뭉치로 학습된 Molmo2-ER을 도입했다. Specialize-then-rehearse 전략을 통해 기존 지식을 유지하면서 로봇 제어에 필요한 공간 지각 능력을 극대화했다.
대규모 오픈소스 로봇 데이터셋 공개
720시간 분량의 양팔 로봇 궤적 데이터인 MolmoAct2-BimanualYAM을 포함하여 SO-100/101, DROID의 정제된 데이터셋을 릴리스했다. 이는 현재까지 공개된 양팔 로봇 데이터 중 최대 규모이다.
OpenFAST Tokenizer 및 하이브리드 아키텍처
연속적인 로봇 동작을 이산 토큰으로 변환하는 오픈소스 토크나이저를 제공한다. 이산 토큰 기반의 VLM 백본에 Flow-matching 기반의 연속 동작 전문가를 결합한 새로운 VLA 구조를 설계했다.
MolmoAct2-Think: 적응형 깊이 추론
장면에서 변화가 있는 영역에 대해서만 깊이 토큰을 다시 예측하는 Adaptive-depth reasoning 기법을 제안했다. 이를 통해 기하학적 접지력을 유지하면서 추론 지연 시간을 대폭 단축했다.
핵심 아이디어 이해하기
기존의 Vision-Language-Action(VLA) 모델은 이미지와 텍스트를 입력받아 다음 행동 토큰을 예측하는 Transformer 구조를 사용한다. 하지만 로봇 제어에서는 미세한 공간 정보와 연속적인 움직임이 중요한데, 일반적인 VLM은 픽셀 단위의 정밀한 거리나 기하학적 구조를 파악하는 데 한계가 있어 복잡한 조작 작업에서 실패율이 높았다.
MolmoAct2는 이 문제를 해결하기 위해 VLM 백본인 Molmo2-ER에 공간 지능을 주입하는 단계를 거친다. 먼저 3D 데이터와 공간 질의응답 데이터를 통해 모델이 사물의 위치와 거리를 정확히 이해하도록 학습시킨다. 그 다음, 이산적인 토큰 예측의 안정성과 연속적인 수치 제어의 정밀함을 동시에 잡기 위해 Flow-matching 기법을 도입했다. 이는 노이즈 상태에서 목표 동작으로 가는 속도 필드를 학습하는 방식으로, Transformer의 이산적 특성과 결합되어 부드러운 로봇 움직임을 생성한다.
결과적으로 MolmoAct2는 단순한 텍스트-이미지 매칭을 넘어, 주변 환경의 물리적 구조를 '추론'하고 이를 바탕으로 정밀한 동작 궤적을 계산한다. 특히 MolmoAct2-Think 변형은 이전 프레임과 비교해 변하지 않은 배경 정보는 재사용하고 변화된 부분만 집중적으로 계산하여, 실시간 제어에 필수적인 빠른 반응 속도를 확보했다.
방법론
Molmo2-ER 백본은 Molmo2(Qwen3-4B 기반)를 초기값으로 하여 3.3M 샘플의 embodied 데이터로 학습된다. Specialize-then-rehearse 레시피를 적용하여, 1단계에서 공간 지각 데이터로 특화 학습을 진행하고 2단계에서 일반 VQA 데이터와 혼합하여 지식 망각을 방지한다.
OpenFAST Tokenizer는 1초 분량의 32차원 연속 동작 궤적을 입력받아 주파수 도메인 변환 및 양자화를 거쳐 2048개의 어휘 사전 내 이산 토큰 시퀀스로 변환한다. [연속 궤적 → DCT 변환 및 양자화 → BPE 적용 → 이산 토큰] 과정을 통해 이질적인 로봇 하드웨어의 동작을 통일된 형식으로 처리한다.
아키텍처는 VLM 백본과 Action Expert가 결합된 형태이다. VLM의 각 레이어에서 생성된 Key-Value(KV) 캐시를 Action Expert의 Cross-Attention 레이어에 직접 연결하는 Per-layer KV connection을 사용한다. [VLM 레이어별 KV 캐시 → 선형 어댑터 투영 → Action Expert Cross-Attention 입력] 순으로 연산이 수행되어, 백본의 풍부한 시각-언어 특징이 동작 생성 전문가에게 직접 전달된다.
Flow-matching 기반의 동작 생성은 가우시안 노이즈 ϵ와 실제 동작 a 사이를 시간 t에 따라 보간한 xt = (1-t)ϵ + ta를 입력으로 사용한다. 모델 fθ는 xt와 VLM 컨텍스트 c를 입력받아 목표 속도 u* = a - ϵ를 예측하도록 학습된다. 추론 시에는 노이즈에서 시작해 예측된 속도 필드를 적분하여 최종 연속 동작 궤적을 산출한다.
주요 결과
Molmo2-ER은 13개의 embodied reasoning 벤치마크에서 평균 63.8%의 정확도를 기록하며 GPT-5(57.9%)와 Gemini Robotics ER-1.5(61.3%)를 능가했다. 특히 공간 포인팅 및 거리 추정 성능에서 기존 오픈소스 모델 대비 압도적인 우위를 보였다.
실제 로봇 배포 실험에서 MolmoAct2-DROID는 DROID 환경의 제로샷 평가 시 π0.5 대비 성공률이 10.6% 향상되었으며, SO-100 플랫폼에서는 기존 모델 대비 11.4% 높은 성공률을 기록했다. 양팔 로봇 YAM 환경의 8가지 복잡한 작업(컵 쌓기, 팝콘 만들기 등)에서도 평균 50.1%의 성공률로 기존 SOTA 모델들을 15% 이상 앞섰다.
효율성 측면에서 CUDA Graph 최적화를 적용한 MolmoAct2는 H100 GPU 기준 55.79Hz의 제어 속도를 달성하여 실시간 폐루프 제어가 가능함을 증명했다. MolmoAct2-Think는 적응형 추론을 통해 기하학적 정확도를 유지하면서도 기존 대비 추론 지연 시간을 유의미하게 줄였다.
기술 상세
MolmoAct2의 핵심은 이산 토큰 예측과 연속 제어의 하이브리드 구조이다. VLM 백본은 36레이어의 Transformer 구조를 가지며, Action Expert 역시 동일한 깊이의 DiT(Diffusion Transformer) 스타일 구조를 채택하여 레이어 간 1:1 KV 캐시 공유를 가능케 했다. 학습 시에는 Knowledge Insulation 기법을 적용하여 Action Expert의 손실 함수가 VLM 백본의 가중치로 역전파되지 않도록 차단함으로써 언어 모델의 일반화 능력을 보존한다.
MolmoAct2-Think의 적응형 깊이 추론은 10x10 그리드의 깊이 맵을 활용한다. 이전 프레임과 현재 프레임의 패치 간 코사인 유사도가 0.996 미만인 경우에만 해당 영역의 깊이 토큰을 갱신한다. 이를 위해 학습 시 10%의 노이즈를 주입한 Teacher-forcing 기법과 레이어별 게이팅 메커니즘을 사용하여 모델이 예측된 깊이 정보에 얼마나 의존할지 스스로 학습하게 유도했다.
한계점
논문은 MolmoAct2-Think가 정적인 장면에서는 효율적이지만, 카메라가 계속 움직이거나 장면 전체가 급격히 변하는 동적인 상황에서는 모든 토큰을 다시 계산해야 하므로 연산 이득이 줄어든다는 점을 명시했다. 또한 현재 모델은 1초 단위의 짧은 미래 동작만 예측하므로, 장기적인 계획(Long-horizon planning)이 필요한 작업에서는 여전히 한계가 있을 수 있음을 언급했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.