DexJoCo: MuJoCo 기반의 작업 지향적 손재주 조작 벤치마크 및 도구 키트

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

손재주 중심 로봇 manipulation 연구를 위한 표준 벤치마크의 부재를 해소하기 위해 DexJoCo를 제안한다. DexJoCo는 기능적으로 근거된 태스크, 도구 사용, 양손 협응, 장기 실행 및 추론을 포함하는 11개 태스크를 제시하고, 1.1K의 인간 시연 데이터를 수집하며 도메인 랜덤화를 통한 강건성 평가를 가능하게 한다. 이로써 현재 정책의 한계점과 향후 연구 방향을 체계적으로 분석할 수 있다.

왜 중요한가

핵심 기여

DexJoCo 벤치마크: 기능적으로 근거된 11개 태스크

손가락 협응과 환경 상호작용이 핵심인 도구 사용, 양손 협응, 장기 실행 및 추론 태스크를 포함한 11개의 dexterous manipulation 태스크를 제시하고, 도메인 랜덤화하에 다양한 조건에서 평가한다.

DexJoCo 데이터 수집 도구: 저비용 텔레오프 시스템

Rokoko 글러브와 Vive 트래커를 활용한 휴먼 데모 수집 체계와 GeoRT 기반의 리타게팅 모듈로 인간 손 모션을 Allegro Hand 제어로 매핑한다.

DexJoCo 데이터셋: 1.1K 인간 시연 트랙터리

11개 태스크에서 1.1K 인간 시연을 수집하고 LeRobot/DP Zarr과 같은 형식으로 데이터 변환이 가능하며 도메인 랜덤화로 로버스트성을 평가한다.

정책 평가: ACT, Diffusion Policy, π0.5, GR00T N1.5

vision+proprioception 기반의 학습 정책과 LoRA를 활용한 언어 조건화 모델의 비교를 통해 현행 정책의 한계와 장점을 파악하고, 비대칭적 작업에서의 성능 차이를 분석한다.

핵심 아이디어 이해하기

출발점: dexterous manipulation은 손의 고다양도 관절 제어와 물체-환경 상호작용이 필요하므로, 기존 벤치마크는 그리퍼에 의한 단순 작업이나 in-hand manipulation에 집중하는 경향이 있다. 한계점: 데이터 수집 비용이 높고, 비현실적인 환경에서 수집된 트래젝토리가 실제 성능에의 이식성이 낮다. 논문 접근: MuJoCo 기반의 시뮬레이션과 Allegro Hand를 결합하고, 휴먼 데모를 GeoRT로 로봇 관절로 매핑하며 도메인/비주얼/다이나믹스 랜덤화를 도입해 학습-평가 분포를 넓힌다. 결과적으로 11개 태스크에서 다양한 정책의 비교가 가능해지며, 장기 실행 및 추론 능력도 평가에 반영된다. 차별점: 도메인 랜덤화와 멀티태스크 학습의 상호 작용을 분석하고, pretrained action-head의 유지가 성능에 미치는 영향을 확인한다. 언어 일반화 실패 문제를 통해 VLA 모델의 embodied 인지 한계도 드러난다.

방법론

입력: MuJoCo 시뮬레이션 환경에서 Panda 팔과 Allegro Hand를 결합한 로봇 시스템; 관절 각도와 End-effector의 절대 포즈를 목표로 하는 액션 공간; 데이터 수집은 휴먼 데모(로코고 글러브 + Vive 트래커)로 생성된다. GeoRT를 사용한 휴먼 핑거포인트 → 로봇 관절 매핑 f를 학습하고, 손목 트래커를 이용해 팔의 포즈를 보정한다. 손가락 포인트 xH를 입력으로 하여 qR = f(xH)로 매핑하며, 손목 포즈는 기준 프레임에서 상대적 포즈 변경으로 표현한다. 손-팔 조작은 L = Ldir + λ1Lcover + λ2Lflat + λ3Lpinch + λ4Lcol로 최적화한다. 3. Task Design: T = (O, G)에서 O는 상호작용 객체의 집합, G는 gseq, gpose, gjoint, gcontact로 정의되는 성공 제약이며, 모든 제약이 동시에 만족될 때 태스크 성공으로 판단한다. 4. 도메인 랜덤화: 카메라 포즈, 조명 방향/색상, 테이블 높이 및 텍스처를 무작위화하며, 재생을 통해 시각적 다양성을 확보한다. 5. 정책 평가: ACT, Diffusion Policy(DP-T, DP-C), π0.5, GR00T N1.5를 벤치마크로 사용하고, 비동기 추론으로 포워딩-피드백의 중첩 실행을 구현한다. 6. 학습/평가 파이프라인: LeRobot Dataset v3.0 및 DP Zarr로 데이터 형식을 표준화하고, 서버-클라이언트 프레임워크에서 평가한다.

주요 결과

주요 결과는 표 2에 요약된다. rand-obj 조건에서 π0.5가 평균 52.5%의 성공률로 가장 높았고, DP-T는 50.4%, DP-C는 47.6%, GR00T N1.5는 40.2%, ACT는 35.5%를 기록했다. rand-full 조건에서 π0.5의 평균은 34.1%로 가장 높았고, DP-T는 28.4%, DP-C는 22.7%, ACT는 22.7%, GR00T N1.5는 30.5%였다. 특정 태스크에서 DP-C는 Unlock iPad와 Pinch Tongs에서 우수한 성능을 보였고, 멀티태스크 학습(multi-task)에서 DP-T의 성능이 전반적으로 저하되었다. rand-dynamics에서는 π0.5가 더Robust한 경향을 보였고, pretrain-AH를 유지하면 대부분의 태스크에서 성능이 개선되었다. 언어 일반화 실험은 π0.5의 언어 조건화가 제한적임을 보여주었고, 평균 PMI와 JS 다이버전스가 낮아 실제로는 언어 지시가 반영되지 않는 경향을 확인했다. 실패 사례로는 Button 클릭 실패, 삽입 실패, 기억(memory) 관련 실패가 나타났다. fig. 5, fig. 6를 참조.

기술 상세

아키텍처 및 수학적 기초: MuJoCo 시뮬레이터 위에 Rethink Robotics 마운트 + Franka Panda manipulator + Allegro Hand로 구성된 로봇 시스템. 관찰 공간은 제3자 카메라 영상, wrist 영상, 객체 자세, 엔드-이펙터 포즈, 핸드 관절 각도 등으로 구성되며, 제어 신호는 월드 좌표계의 절대 엔드-포즈와 핸드의 절대 관절 각도다. 휴먼 시연은 Rokoko 글러브와 Vive tracker를 사용하여 포착되고, GeoRT를 통해 xH → qR 매핑을 학습한다. 도메인 랜덤화는 replay를 통해 시각적 다양성을 확장하며, 카메라 포즈는 구면 표면의 50개 포즈를 선택한다. 도메인 랜덤화 설정은 Table height, Lighting direction/color, Table texture, Third-person camera pose를 포함한다. 정책 평가는 ACT, Diffusion Policy(DP-T, DP-C), π0.5, GR00T N1.5를 사용하며, P(at:t+k−1) = πθ(at:t+k−1 | st−h+1:t, l)로 미래 k-step 행동을 조건부 확률로 모델링한다. 비동기 추론은 다음 액션 청크를 계산하는 동안 현재 청크를 실행하도록 구성된다.

한계점

DexJoCo의 한계점으로는 (i) Hand-centric Foundation Model의 부재, (ii) 비전-만으로의 정책이 접촉-강조적 조작에서 한계, (iii) 시뮬레이션-현실 간 간극으로 인한 전이 문제, (iv) 언어 일반화의 한계가 확인되었다.

실무 활용

DexJoCo 데이터셋과 벤치마크는 dexterous manipulation 연구에서 정책의 일반화와 실험 재현성을 향상시키는 데 활용될 수 있다. 도메인 랜덤화 기반의 강건성 평가와 다양한 태스크 구성은 로봇 핸드 제어의 실제 응용에 필요한 실험 설계를 제시한다.

Dexterous 핸드 제어 알고리즘의 비교 연구
도메인 랜덤화 기반 로버스트니스 평가
휴먼 데모 기반 imitation learning 연구의 데이터 수급 및 평가
다중 작업 학습의 영향 분석 및 정책 설계
언어 조건화이 포함된 비전-모달 정책의 한계 탐구

코드 공개 여부: 공개

코드 저장소 보기

키워드

dexterous manipulation(손재주 조작)benchmark(벤치마크)toolkit(도구 키트)functionally grounded tasks(기능적으로 근거된 태스크)tool-use(도구 사용)bimanual coordination(양손 협응)long-horizon execution(장기 실행)domain randomization(도메인 랜덤화)