이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
MolmoMotion은 비디오 프레임, 3D 쿼리 포인트, 언어 지시를 입력받아 객체의 미래 3D 궤적을 예측하는 새로운 모션 예측 모델이다. Molmo 2를 백본으로 사용하여 클래스에 구애받지 않고 다양한 객체의 움직임을 일반화된 방식으로 추론한다. 모델은 미래 좌표를 단계별로 생성하는 Autoregressive 방식과 노이즈를 모션으로 변환하는 Flow-matching 방식의 두 가지 변형으로 구성된다. 실험 결과, PointMotionBench에서 기존 방법론을 능가하는 정확도를 기록했으며 로봇 조작 작업의 성공률과 영상 생성의 움직임 일관성을 크게 개선했다.
배경
3D 컴퓨터 비전, 로봇 제어, 멀티모달 모델
대상 독자
로봇 공학자 및 영상 생성 모델 개발자
의미 / 영향
이 모델은 로봇이 복잡한 환경에서 객체의 미래 움직임을 예측하고 대응할 수 있게 하여 자율 조작 능력을 강화한다. 또한 영상 생성 분야에서 텍스트 프롬프트의 한계를 넘어 물리적으로 타당한 움직임을 제어하는 새로운 표준을 제시한다.
섹션별 상세
기존 모션 예측 시스템은 이미 발생한 움직임을 추적하는 데 그치지만, MolmoMotion은 미래의 움직임을 예측하여 로봇 제어와 영상 생성 등 능동적인 작업에 활용한다.
모델은 Molmo 2를 백본으로 활용하여 언어 지시와 시각적 관측을 결합하고, 객체의 3D 궤적을 명시적으로 예측한다.

Autoregressive 변형은 궤적을 구조화된 텍스트로 생성하여 정확도를 높이고, Flow-matching 변형은 연속적인 3D 공간에서 모션을 예측하여 불확실성을 효과적으로 처리한다.
연구진은 116만 개의 비디오에서 추출한 3D 궤적 데이터셋인 MolmoMotion-1M과 2,700개 클립으로 구성된 평가용 벤치마크 PointMotionBench를 함께 공개했다.

로봇 시뮬레이션 환경에서 MolmoMotion 기반 정책은 기존 Molmo 2 기반 정책 대비 10K 학습 단계에서 51%의 성공률을 기록하여 19%에 그친 기존 모델을 크게 앞섰다.

영상 생성 모델에 MolmoMotion의 예측 궤적을 가이드로 제공하면, 프롬프트만으로는 구현하기 어려운 미세하고 정확한 움직임을 생성하여 5개 모션 지표 모두에서 성능이 향상됐다.

실무 Takeaway
- MolmoMotion은 로봇 제어와 영상 생성 파이프라인에서 객체의 미래 3D 궤적을 예측하여 작업 성공률과 모션 일관성을 개선하는 핵심 컴포넌트로 활용 가능하다.
- 3D 모션 예측 모델을 도입할 때 Autoregressive 방식은 명확한 경로 예측에, Flow-matching 방식은 불확실성이 존재하는 상황의 모션 생성에 유리하다.
- 공개된 MolmoMotion-1M 데이터셋과 PointMotionBench를 활용하여 객체 중심의 3D 모션 예측 성능을 정량적으로 평가하고 모델을 커스터마이징할 수 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 06. 18.수집 2026. 06. 18.출처 타입 RSS
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.