핵심 요약
비디오 생성 모델로 만든 로봇 학습 데이터는 양은 많지만 물리적으로 불가능한 동작이 포함되는 경우가 많아 학습 효율을 떨어뜨린다. RoboCurate는 시뮬레이터 재현을 통해 생성된 비디오의 물리적 타당성을 직접 검증함으로써 고품질 데이터만 선별하는 새로운 표준을 제시한다. 이를 통해 실제 휴머노이드 로봇이 복잡한 작업을 수행하는 능력을 획기적으로 개선할 수 있다.
왜 중요한가
비디오 생성 모델로 만든 로봇 학습 데이터는 양은 많지만 물리적으로 불가능한 동작이 포함되는 경우가 많아 학습 효율을 떨어뜨린다. RoboCurate는 시뮬레이터 재현을 통해 생성된 비디오의 물리적 타당성을 직접 검증함으로써 고품질 데이터만 선별하는 새로운 표준을 제시한다. 이를 통해 실제 휴머노이드 로봇이 복잡한 작업을 수행하는 능력을 획기적으로 개선할 수 있다.
핵심 기여
시뮬레이터 재현 기반 동작 검증 필터링
IDM이 예측한 동작을 시뮬레이터에서 재현하고, 렌더링된 영상과 생성된 영상 간의 시각적 일치성을 판별하여 물리적으로 타당한 신경 궤적만 선별하는 메커니즘을 도입했다.
제어 가능한 시각적 다양성 확장 파이프라인
I2I 편집을 통한 장면 다양화와 V2V 전송을 통한 외형 증강 기법을 결합하여, 로봇 학습에 필수적인 환경적 변동성을 체계적으로 확장하는 파이프라인을 구축했다.
Attentive Probe를 활용한 정밀한 동작 일치성 판별
V-JEPA2 비디오 인코더 위에 Cross-Attention 레이어를 추가한 경량 프로브를 학습시켜, 생성된 비디오와 시뮬레이터 롤아웃 간의 미세한 동작 불일치를 효과적으로 감지한다.
실제 휴머노이드 로봇에서의 성능 입증
ALLEX 휴머노이드 로봇 실험에서 RoboCurate로 생성된 데이터를 활용했을 때, 기존 방식 대비 성공률이 최대 179.9% 향상됨을 확인하며 실용성을 증명했다.
핵심 아이디어 이해하기
로봇 학습을 위해 비디오 생성 모델로 만든 '가짜 데이터'를 사용하는 방식은 데이터 부족 문제를 해결할 강력한 대안이지만, 비디오 속 로봇의 움직임이 물리적으로 말이 안 되거나 라벨링이 틀리는 경우가 많다는 고질적인 문제가 있다. 이는 마치 잘못된 정답지가 포함된 문제집으로 공부하는 것과 같아 로봇의 성능을 오히려 떨어뜨린다.
RoboCurate는 이 문제를 해결하기 위해 '시뮬레이터'라는 엄격한 채점관을 도입한다. 비디오를 보고 로봇의 관절 움직임 값을 추출한 뒤, 이를 시뮬레이터라는 가상 세계에서 똑같이 실행해본다. 만약 시뮬레이터 속 로봇의 움직임이 원래 비디오와 똑같다면 그 데이터는 믿을 수 있는 '진짜 같은 가짜'로 판정되어 학습에 사용된다.
이 과정에서 단순히 필터링만 하는 것이 아니라, 이미지 편집 기술을 동원해 배경을 바꾸거나 물체의 색상을 변경하는 등 로봇이 경험할 수 있는 상황을 인위적으로 늘려준다. 결과적으로 로봇은 물리적으로 정확하면서도 매우 다양한 상황이 담긴 고품질 데이터로 학습하게 되어, 실제 환경에서 처음 보는 물체를 다루는 능력까지 갖추게 된다.
방법론
전체 프레임워크는 생성(Generation)과 필터링(Filtering)의 두 단계로 나뉜다. 생성 단계에서는 VLM을 사용하여 초기 프레임에 적합한 5가지 작업 지시문을 생성하고, I2I 모델(FLUX.2)로 장면의 시각적 요소를 변경한 뒤 Cosmos-Predict2 비디오 생성 모델을 통해 신경 궤적을 생성한다.
필터링 단계에서는 Diffusion Transformer 기반의 IDM이 생성된 비디오로부터 동작 시퀀스 을 예측한다. 이 동작을 시뮬레이터에 입력하여 렌더링된 비디오 을 생성하고, 이를 원래의 생성 비디오 과 비교하여 일치성을 평가한다.
두 비디오의 일치 여부를 가리기 위해 V-JEPA2 비디오 인코더 위에 'Attentive Probe'를 구성했다. 두 비디오의 임베딩 를 입력으로 받아 Cross-Attention 레이어에서 상호 작용을 계산하고, 최종적으로 시그모이드 함수를 통해 정렬 확률 를 출력한다. 이 확률값이 임계치를 넘는 샘플만 최종 학습 데이터셋에 포함된다.
데이터 증강을 위해 V2V 전송 시 Canny Edge Map을 조건으로 사용하여 로봇의 움직임 역학은 보존하면서 텍스처와 색상만 변환하는 방식을 채택했다. 이를 통해 동작 라벨의 유효성을 유지하면서도 시각적 다양성을 극대화했다.
주요 결과
GR-1 Tabletop 벤치마크에서 300개의 데모만 사용했을 때, RoboCurate 데이터를 추가한 모델은 성공률 26.2%를 기록하여 실데이터만 사용한 베이스라인(15.4%) 대비 약 70.1%의 상대적 향상을 보였다. 이는 필터링이 없는 기존 합성 데이터 방식(+26.6% 향상)보다 훨씬 높은 효율을 증명한다.
실제 ALLEX 휴머노이드 로봇 실험에서는 학습 데이터에 없던 새로운 물체(컵) 조작에서 43.8%, 새로운 행동(캔 붓기)에서 25.0%의 성공률을 달성했다. 실데이터만으로는 각각 16.7%와 0.0%에 불과했던 성능을 비약적으로 끌어올린 결과이다.
다양성 분석 실험(Table 5) 결과, 시각적 다양성과 작업 다양성이 모두 확보되었을 때 성공률이 23.3%로 가장 높았으며, 이는 다양성 요소가 결여된 경우(12.5%)보다 약 2배 가까운 성능 차이를 나타냈다.
필터링 전략 비교(Table 4)에서 RoboCurate는 기존의 물리적 타당성 벤치마크인 VideoCon-Physics(35.2%)나 DreamGenBench(35.4%)보다 높은 38.3%의 평균 성공률을 기록하며 동작 수준 검증의 우월성을 입증했다.
기술 상세
RoboCurate는 비디오 생성 모델의 물리적 오류를 시뮬레이터 롤아웃과의 'Motion Consistency' 비교를 통해 해결한다. 핵심 컴포넌트인 Attentive Probe는 0.3B 파라미터 규모의 V-JEPA2 Large 모델을 백본으로 사용하며, 백본을 고정한 상태에서 단일 Cross-Attention 레이어만 학습시켜 효율성을 높였다.
검증용 프로브 학습을 위해 실제 로봇 데이터에서 시간적 이동(Temporal Shift)을 주거나 다른 에피소드의 영상을 섞는 방식으로 Positive/Negative Pair를 자동 생성하여 지도 학습을 수행했다. 이는 수동으로 라벨링된 데이터보다 더 세밀한 동작 불일치를 감지하는 데 효과적임이 확인됐다.
시각적 다양성 확장을 위해 ControlNet 구조를 활용하여 Canny Edge Map을 조건부 입력으로 사용한다. I2I 단계에서는 장면 구조를 유지하며 물체와 배경을 변경하고, V2V 단계에서는 로봇의 움직임을 보존하며 텍스처와 색상만 변환하여 IDM 라벨의 재사용성을 보장한다.
학습 전략으로는 Warmup-Stable-Decay(WSD) 스케줄러를 사용하며, 초기 50K 스텝은 전체 데이터를 사용하고 마지막 10K 스텝에서만 RoboCurate로 선별된 고품질 데이터로 미세 조정하는 방식을 취해 학습 안정성과 최종 성능을 동시에 확보했다.
한계점
IDM이 로봇의 내부 상태 정보(Proprioceptive states)를 예측하지 못하기 때문에, 합성 데이터에서는 해당 값이 0으로 패딩되어 처리된다. 이는 상태 정보가 제어에 핵심적인 역할을 하는 특정 작업에서 성능 제약 요소가 될 수 있다.
실무 활용
로봇 학습용 데이터 수집 비용이 높은 환경에서 고품질 합성 데이터를 생성하고 검증하는 파이프라인으로 즉시 활용 가능하다.
- 휴머노이드 로봇의 정교한 물체 조작 및 도구 사용 학습용 데이터 증강
- 다양한 조명 및 배경 환경에 대한 로봇 정책의 강건성(Robustness) 테스트
- 실제 환경에서 수집하기 어려운 희귀한 작업 실패 시나리오의 합성 및 학습
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.