MolmoMotion: 언어 기반 3D 모션 예측 모델 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

MolmoMotion은 비디오 프레임, 3D 쿼리 포인트, 언어 지시를 입력받아 객체의 미래 3D 궤적을 예측하는 새로운 모션 예측 모델이다. Molmo 2를 백본으로 사용하여 클래스에 구애받지 않고 다양한 객체의 움직임을 일반화된 방식으로 추론한다. 모델은 미래 좌표를 단계별로 생성하는 Autoregressive 방식과 노이즈를 모션으로 변환하는 Flow-matching 방식의 두 가지 변형으로 구성된다. 실험 결과, PointMotionBench에서 기존 방법론을 능가하는 정확도를 기록했으며 로봇 조작 작업의 성공률과 영상 생성의 움직임 일관성을 크게 개선했다.

배경

3D 컴퓨터 비전, 로봇 제어, 멀티모달 모델

대상 독자

로봇 공학자 및 영상 생성 모델 개발자

의미 / 영향

이 모델은 로봇이 복잡한 환경에서 객체의 미래 움직임을 예측하고 대응할 수 있게 하여 자율 조작 능력을 강화한다. 또한 영상 생성 분야에서 텍스트 프롬프트의 한계를 넘어 물리적으로 타당한 움직임을 제어하는 새로운 표준을 제시한다.

섹션별 상세

기존 모션 예측 시스템은 이미 발생한 움직임을 추적하는 데 그치지만, MolmoMotion은 미래의 움직임을 예측하여 로봇 제어와 영상 생성 등 능동적인 작업에 활용한다.

모델은 Molmo 2를 백본으로 활용하여 언어 지시와 시각적 관측을 결합하고, 객체의 3D 궤적을 명시적으로 예측한다.

MolmoMotion의 모델 아키텍처 다이어그램. — DiagramMolmo 2 백본을 중심으로 RGB 관측치, 텍스트 지시, 2D 쿼리 포인트를 입력받아 Autoregressive 또는 Flow-matching 방식으로 3D 궤적을 예측하는 과정을 보여준다.

Autoregressive 변형은 궤적을 구조화된 텍스트로 생성하여 정확도를 높이고, Flow-matching 변형은 연속적인 3D 공간에서 모션을 예측하여 불확실성을 효과적으로 처리한다.

연구진은 116만 개의 비디오에서 추출한 3D 궤적 데이터셋인 MolmoMotion-1M과 2,700개 클립으로 구성된 평가용 벤치마크 PointMotionBench를 함께 공개했다.

PointMotionBench 벤치마크 결과 차트. — ChartHOT3D, WorldTrack, DAVIS 데이터셋에서 MolmoMotion의 변형 모델들이 기존 베이스라인 대비 낮은 3D 평균 변위 오차를 기록하며 우수한 성능을 입증함을 보여준다.

로봇 시뮬레이션 환경에서 MolmoMotion 기반 정책은 기존 Molmo 2 기반 정책 대비 10K 학습 단계에서 51%의 성공률을 기록하여 19%에 그친 기존 모델을 크게 앞섰다.

로봇 계획 작업에서의 성공률 비교 차트. — ChartMolmoMotion으로 초기화된 정책이 Molmo 2 기반 정책보다 샘플 효율성과 최종 성공률 면에서 월등히 높은 성능을 보임을 나타낸다.

영상 생성 모델에 MolmoMotion의 예측 궤적을 가이드로 제공하면, 프롬프트만으로는 구현하기 어려운 미세하고 정확한 움직임을 생성하여 5개 모션 지표 모두에서 성능이 향상됐다.

영상 생성 결과의 모션 관련 지표 비교 차트. — ChartMolmoMotion을 가이드로 사용한 영상 생성이 CogVideoX-5B 및 Wan2.2-12V-A14B 모델 대비 시간적 일관성, 객체 일관성 등 5개 지표에서 더 높은 점수를 기록했음을 보여준다.

실무 Takeaway

MolmoMotion은 로봇 제어와 영상 생성 파이프라인에서 객체의 미래 3D 궤적을 예측하여 작업 성공률과 모션 일관성을 개선하는 핵심 컴포넌트로 활용 가능하다.
3D 모션 예측 모델을 도입할 때 Autoregressive 방식은 명확한 경로 예측에, Flow-matching 방식은 불확실성이 존재하는 상황의 모션 생성에 유리하다.
공개된 MolmoMotion-1M 데이터셋과 PointMotionBench를 활용하여 객체 중심의 3D 모션 예측 성능을 정량적으로 평가하고 모델을 커스터마이징할 수 있다.

언급된 리소스

GitHubMolmoMotion Collection

논문MolmoMotion Tech Report

문서MolmoMotion-1M Dataset

DemoMolmoMotion Project Page

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

3D 컴퓨터 비전, 로봇 제어, 멀티모달 모델

대상 독자

로봇 공학자 및 영상 생성 모델 개발자

의미 / 영향

섹션별 상세

모델은 Molmo 2를 백본으로 활용하여 언어 지시와 시각적 관측을 결합하고, 객체의 3D 궤적을 명시적으로 예측한다.

연구진은 116만 개의 비디오에서 추출한 3D 궤적 데이터셋인 MolmoMotion-1M과 2,700개 클립으로 구성된 평가용 벤치마크 PointMotionBench를 함께 공개했다.

실무 Takeaway

MolmoMotion은 로봇 제어와 영상 생성 파이프라인에서 객체의 미래 3D 궤적을 예측하여 작업 성공률과 모션 일관성을 개선하는 핵심 컴포넌트로 활용 가능하다.
3D 모션 예측 모델을 도입할 때 Autoregressive 방식은 명확한 경로 예측에, Flow-matching 방식은 불확실성이 존재하는 상황의 모션 생성에 유리하다.
공개된 MolmoMotion-1M 데이터셋과 PointMotionBench를 활용하여 객체 중심의 3D 모션 예측 성능을 정량적으로 평가하고 모델을 커스터마이징할 수 있다.

언급된 리소스

GitHubMolmoMotion Collection

논문MolmoMotion Tech Report

문서MolmoMotion-1M Dataset

DemoMolmoMotion Project Page

MolmoMotion: 언어 기반 3D 모션 예측 모델 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

MolmoMotion: 언어 기반 3D 모션 예측 모델 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드