핵심 요약
비디오 생성 모델(Video Generative Models)을 통해 생성된 합성 데이터는 확장 가능한 파이프라인으로서 로봇 학습(Robot Learning)에서 가능성을 보여주었으나, 불완전하게 생성된 비디오로 인해 일관되지 않은 행동 품질(Action Quality) 문제를 겪는 경우가 많습니다. 최근 시각 언어 모델(VLMs)이 비디오 품질 검증에 활용되고 있지만, 물리적으로 정확한 비디오를 구별하는 데 한계가 있으며 생성된 행동 자체를 직접 평가할 수도 없습니다. 이 문제를 해결하기 위해 본 논문에서는 주석이 달린 행동의 품질을 시뮬레이션 재현(Simulator Replay)과 비교하여 평가하고 필터링하는 새로운 합성 로봇 데이터 생성 프레임워크인 RoboCurate를 소개합니다. 구체적으로 RoboCurate는 예측된 행동을 시뮬레이터에서 재현하고, 시뮬레이터의 실행 결과(Rollout)와 생성된 비디오 간의 동작 일관성을 측정하여 행동 품질을 평가합니다. 또한 이미지 투 이미지 편집(Image-to-Image Editing)을 통해 기존 데이터셋을 넘어서는 관찰 다양성(Observation Diversity)을 확보하고, 외형을 더욱 증강하기 위해 행동 보존 비디오 투 비디오 전이(Action-preserving Video-to-Video Transfer)를 적용합니다. 실험 결과, RoboCurate로 생성된 데이터는 실제 데이터만 사용했을 때보다 성공률을 크게 향상시켰으며, GR-1 Tabletop에서 +70.1%, DexMimicGen 사전 학습 설정에서 +16.1%, 그리고 까다로운 실제 환경의 ALLEX 휴머노이드 양손 조작(Humanoid Dexterous Manipulation) 설정에서 +179.9%의 개선을 달성했습니다.
핵심 기여
시뮬레이션 재현 기반 행동 검증 메커니즘
생성된 비디오의 행동 주석을 시뮬레이터에서 실제로 실행해보고, 시뮬레이션 결과와 비디오 간의 물리적 일관성을 비교하여 저품질 데이터를 자동으로 필터링하는 기법을 제안했습니다.
이미지 및 비디오 편집을 통한 관찰 다양성 확장
이미지 투 이미지 편집과 행동 보존형 비디오 투 비디오 전이 기술을 결합하여, 기존 데이터셋의 한계를 넘어 다양한 환경과 외형을 가진 합성 데이터를 생성하는 파이프라인을 구축했습니다.
휴머노이드 정밀 조작 성능의 획기적 향상
실제 환경의 ALLEX 휴머노이드 로봇을 이용한 정밀 조작 작업에서 기존 대비 179.9%라는 압도적인 성공률 향상을 기록하며 프레임워크의 실효성을 입증했습니다.
방법론
RoboCurate는 비디오 생성 모델이 출력한 궤적을 시뮬레이터 내에서 재현(Replay)하여 물리적 타당성을 검증합니다. 시뮬레이터의 롤아웃(Rollout)과 생성된 비디오 사이의 동작 일관성을 정량적으로 측정하여 행동 품질을 평가하며, 이미지 투 이미지 편집 및 비디오 투 비디오 전이를 통해 데이터의 시각적 다양성을 증폭시킵니다.
주요 결과
GR-1 Tabletop 벤치마크(300개 데모)에서 성공률이 70.1% 향상되었으며, DexMimicGen 사전 학습 설정에서는 16.1%의 성능 개선을 보였습니다. 특히 실제 세계의 ALLEX 휴머노이드 정밀 조작 실험에서는 기존 방식 대비 179.9%라는 높은 상대적 성능 향상을 기록했습니다.
시사점
로봇 학습을 위한 데이터 부족 문제를 해결하기 위해 비디오 생성 모델을 활용할 때, 물리적 오류가 포함된 데이터를 효과적으로 걸러낼 수 있는 실질적인 가이드라인을 제공합니다. 특히 휴머노이드와 같은 복잡한 시스템의 정밀 조작 학습에 있어 합성 데이터의 신뢰성을 확보하는 데 크게 기여할 것입니다.
키워드
섹션별 상세
시뮬레이션 재현 기반 행동 검증 메커니즘
이미지 및 비디오 편집을 통한 관찰 다양성 확장
휴머노이드 정밀 조작 성능의 획기적 향상
AI 요약 · 북마크 · 개인 피드 설정 — 무료