이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
TL;DR
MolmoAct2는 실세계 로봇 배포를 위해 설계된 완전 오픈소스 Vision-Language-Action(VLA) 파운데이션 모델이다. 기존 로봇 학습 모델들이 폐쇄형 시스템이거나 특정 하드웨어에 종속적인 한계를 극복하기 위해, 공간적·신체적 추론에 특화된 Molmo2-ER 백본과 다양한 로봇 플랫폼 데이터를 결합했다. 연속 제어를 위한 아키텍처 재설계와 지연 시간을 줄이는 적응형 추론 방식인 MolmoAct2-Think를 도입하여 성능과 효율성을 동시에 확보했다. 모델 가중치, 학습 코드, 데이터셋을 모두 공개하여 로봇 학습의 재현성과 접근성을 높이는 것을 목표로 한다.
챕터별 상세
00:00
소개
발표자와 프로젝트의 배경을 소개한다. MolmoAct2는 실세계 로봇 배포를 위한 오픈소스 파운데이션 모델이다.
01:00
로봇 공학에서 AI의 필요성
디지털 AI와 물리적 세계 사이의 간극을 메우기 위해 로봇 공학에 AI가 필요하다. 기존의 특정 공장 작업용으로 제작된 로봇을 넘어 범용적인 로봇 학습이 요구된다.
02:44
기존 VLA 모델의 한계
현재의 Vision-Language-Action(VLA) 모델들은 개방성 부족, 제로샷 배포 능력의 한계, 그리고 인간 수준의 추론 능력 부재로 인해 비정형 환경에서의 활용이 제한적이다.
03:37
오픈소스 프레임워크
모델 개방성 프레임워크(MOF)를 통해 모델의 개방 수준을 정의한다. MolmoAct2는 가중치, 코드, 데이터를 모두 공개하는 Class I(Open Science) 수준을 지향한다.
06:24
MolmoAct2 개요
MolmoAct2는 실세계 배포를 위한 행동 추론 모델이다. 모델 가중치, 코드, 데이터, 평가 도구를 모두 오픈소스로 제공한다.
08:07
데이터셋 및 재주석
720시간 이상의 고품질 로봇 데이터를 포함한다. 양손 조작 데이터셋, 필터링된 Franka 데이터, 재주석된 SO100/101 궤적을 활용한다.
10:51
학습 파이프라인
학습 파이프라인은 VLM 초기화, VLA 사전 학습, 행동 전문가를 활용한 VLA 사후 학습의 3단계로 구성된다.
12:16
VLM 초기화
Embodied Reasoning(ER) 데이터를 사용하여 일반 비전-언어 모델을 로봇 실행에 적합하도록 초기화한다.
15:04
VLA 사전 학습
MolmoAct2-FAST 토크나이저를 사용하여 로봇 행동을 이산화한다. 다중 모달 웹 데이터와 로봇 데이터를 결합하여 사전 학습을 진행한다.
19:12
행동 전문가 사후 학습
행동 전문가 아키텍처를 추가하여 사후 학습을 진행한다. Flow matching을 사용하여 연속 제어와 더 나은 행동 생성을 가능하게 한다.
22:59
추론 모델 및 속도 개선
MolmoAct2-Think는 적응형 깊이 토큰을 사용하여 변화하는 이미지 패치만 재생성함으로써 추론 속도를 2배 이상 개선한다.
26:35
벤치마크 및 실세계 결과
RoboEval 벤치마크 결과, MolmoAct2는 Pi0 및 GROOT와 같은 기존 모델들을 능가하는 성능을 보인다.
30:16
커뮤니티 도입
커뮤니티 도입이 확산되고 있다. 사용자들이 새로운 로봇에 모델을 배포하는 데 15분밖에 걸리지 않는다.
31:33
Q&A: 휴머노이드 및 RL
휴머노이드 배포, 강화 학습 통합, 데이터 품질이 파인튜닝에 미치는 영향에 대해 논의한다.
37:51
파인튜닝 컴퓨팅 및 과적합
로봇 학습에서 검증 손실은 모델 성능의 완벽한 지표가 아니다. 실제 로봇 제어 성능을 확인하는 것이 중요하다.
42:12
연필을 이용한 덧셈 교육
특정 작업을 위한 파인튜닝은 동일한 궤적을 반복하기보다 다양한 데이터를 사용하는 것이 효과적이다.
46:49
실패 디버깅을 위한 추론
추론 흔적을 분석하여 실패 원인을 파악할 수 있다. 모델은 마르코프 성질을 가지므로 장기적인 오류 수정에는 한계가 있다.
51:25
마무리
발표를 마무리하고 질의응답을 종료한다.
실무 Takeaway
- VLA 모델의 실세계 배포를 위해서는 모델 가중치뿐만 아니라 학습 데이터와 코드의 완전한 공개가 필수적이다.
- 연속적인 로봇 제어 데이터를 이산적인 토큰으로 변환하는 Action Tokenizer는 VLA 모델의 학습 효율을 높인다.
- 모든 깊이 토큰을 매번 생성할 필요 없이 변화하는 부분만 적응적으로 업데이트하면 추론 속도를 2배 이상 개선할 수 있다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 06. 19.수집 2026. 06. 20.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.