CohereRobotics

MolmoAct2: 실세계 배포를 위한 오픈소스 로봇 파운데이션 모델

MolmoAct2는 실세계 로봇 배포를 위해 설계된 완전 오픈소스 Vision-Language-Action 파운데이션 모델로, 적응형 추론과 개방형 데이터셋을 활용한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MolmoAct2는 실세계 로봇 배포를 위해 설계된 완전 오픈소스 Vision-Language-Action(VLA) 파운데이션 모델이다. 기존 로봇 학습 모델들이 폐쇄형 시스템이거나 특정 하드웨어에 종속적인 한계를 극복하기 위해, 공간적·신체적 추론에 특화된 Molmo2-ER 백본과 다양한 로봇 플랫폼 데이터를 결합했다. 연속 제어를 위한 아키텍처 재설계와 지연 시간을 줄이는 적응형 추론 방식인 MolmoAct2-Think를 도입하여 성능과 효율성을 동시에 확보했다. 모델 가중치, 학습 코드, 데이터셋을 모두 공개하여 로봇 학습의 재현성과 접근성을 높이는 것을 목표로 한다.

챕터별 상세

00:00

소개

발표자와 프로젝트의 배경을 소개한다. MolmoAct2는 실세계 로봇 배포를 위한 오픈소스 파운데이션 모델이다.

01:00

로봇 공학에서 AI의 필요성

디지털 AI와 물리적 세계 사이의 간극을 메우기 위해 로봇 공학에 AI가 필요하다. 기존의 특정 공장 작업용으로 제작된 로봇을 넘어 범용적인 로봇 학습이 요구된다.

02:44

기존 VLA 모델의 한계

현재의 Vision-Language-Action(VLA) 모델들은 개방성 부족, 제로샷 배포 능력의 한계, 그리고 인간 수준의 추론 능력 부재로 인해 비정형 환경에서의 활용이 제한적이다.

03:37

오픈소스 프레임워크

모델 개방성 프레임워크(MOF)를 통해 모델의 개방 수준을 정의한다. MolmoAct2는 가중치, 코드, 데이터를 모두 공개하는 Class I(Open Science) 수준을 지향한다.

06:24

MolmoAct2 개요

MolmoAct2는 실세계 배포를 위한 행동 추론 모델이다. 모델 가중치, 코드, 데이터, 평가 도구를 모두 오픈소스로 제공한다.

08:07

데이터셋 및 재주석

720시간 이상의 고품질 로봇 데이터를 포함한다. 양손 조작 데이터셋, 필터링된 Franka 데이터, 재주석된 SO100/101 궤적을 활용한다.

10:51

학습 파이프라인

학습 파이프라인은 VLM 초기화, VLA 사전 학습, 행동 전문가를 활용한 VLA 사후 학습의 3단계로 구성된다.

12:16

VLM 초기화

Embodied Reasoning(ER) 데이터를 사용하여 일반 비전-언어 모델을 로봇 실행에 적합하도록 초기화한다.

15:04

VLA 사전 학습

MolmoAct2-FAST 토크나이저를 사용하여 로봇 행동을 이산화한다. 다중 모달 웹 데이터와 로봇 데이터를 결합하여 사전 학습을 진행한다.

19:12

행동 전문가 사후 학습

행동 전문가 아키텍처를 추가하여 사후 학습을 진행한다. Flow matching을 사용하여 연속 제어와 더 나은 행동 생성을 가능하게 한다.

22:59

추론 모델 및 속도 개선

MolmoAct2-Think는 적응형 깊이 토큰을 사용하여 변화하는 이미지 패치만 재생성함으로써 추론 속도를 2배 이상 개선한다.

26:35

벤치마크 및 실세계 결과

RoboEval 벤치마크 결과, MolmoAct2는 Pi0 및 GROOT와 같은 기존 모델들을 능가하는 성능을 보인다.

30:16

커뮤니티 도입

커뮤니티 도입이 확산되고 있다. 사용자들이 새로운 로봇에 모델을 배포하는 데 15분밖에 걸리지 않는다.

31:33

Q&A: 휴머노이드 및 RL

휴머노이드 배포, 강화 학습 통합, 데이터 품질이 파인튜닝에 미치는 영향에 대해 논의한다.

37:51

파인튜닝 컴퓨팅 및 과적합

로봇 학습에서 검증 손실은 모델 성능의 완벽한 지표가 아니다. 실제 로봇 제어 성능을 확인하는 것이 중요하다.

42:12

연필을 이용한 덧셈 교육

특정 작업을 위한 파인튜닝은 동일한 궤적을 반복하기보다 다양한 데이터를 사용하는 것이 효과적이다.

46:49

실패 디버깅을 위한 추론

추론 흔적을 분석하여 실패 원인을 파악할 수 있다. 모델은 마르코프 성질을 가지므로 장기적인 오류 수정에는 한계가 있다.

51:25

마무리

발표를 마무리하고 질의응답을 종료한다.

실무 Takeaway

VLA 모델의 실세계 배포를 위해서는 모델 가중치뿐만 아니라 학습 데이터와 코드의 완전한 공개가 필수적이다.
연속적인 로봇 제어 데이터를 이산적인 토큰으로 변환하는 Action Tokenizer는 VLA 모델의 학습 효율을 높인다.
모든 깊이 토큰을 매번 생성할 필요 없이 변화하는 부분만 적응적으로 업데이트하면 추론 속도를 2배 이상 개선할 수 있다.

언급된 리소스

논문Open-X Embodiment Dataset

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 06. 19.수집 2026. 06. 20.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.