RoboPocket: 스마트폰을 활용한 즉각적인 로봇 정책 개선 시스템

왜 중요한가

로봇 학습의 가장 큰 걸림돌인 데이터 수집 병목 현상을 해결한다. 값비싼 로봇 하드웨어 없이 스마트폰과 3D 프린팅 그리퍼만으로 전문가 수준의 데이터를 수집하고, 증강 현실(AR)을 통해 모델의 실수를 실시간으로 교정하여 데이터 효율을 2배 높인다.

핵심 기여

RoboPocket 데이터 수집 시스템

스마트폰을 단순한 센서가 아닌 지능형 코파일럿으로 활용하여 수동적인 데이터 기록을 능동적인 계산 가이드 워크플로우로 전환했다.

AR Visual Foresight 기술

증강 현실을 통해 정책의 예측 궤적을 시각화함으로써 사용자가 로봇 없이도 모델의 약점을 선제적으로 파악하고 교정 데이터를 수집하게 한다.

로봇 없는 즉각적 정책 반복

원격 추론과 비동기 온라인 파인튜닝을 결합하여 수 분 내에 정책을 업데이트하는 폐루프 시스템을 구축하여 공변량 변화 문제를 해결했다.

하드웨어 동형성 설계

실제 산업용 그리퍼의 역학을 모사한 저비용 3D 프린팅 그리퍼를 설계하여 수집된 데이터가 실제 로봇에 즉시 전이되도록 보장했다.

핵심 아이디어 이해하기

모방 학습(Imitation Learning)은 전문가의 시연을 학습하지만, 학습 데이터에 없는 낯선 상태에 놓이면 오차가 누적되어 실패하는 공변량 변화(Covariate Shift) 문제에 취약하다. 이를 해결하려면 로봇을 직접 구동하며 실수를 교정하는 과정이 필요하지만, 실제 로봇을 매번 사용하는 것은 비용과 안전 측면에서 비효율적이다. RoboPocket은 스마트폰의 증강 현실(AR) 기능을 활용해 이 문제를 해결한다. 사용자는 실제 로봇 대신 스마트폰 그리퍼를 움직이며 화면에 표시되는 가상의 궤적(Visual Foresight)을 통해 모델의 의도를 미리 확인한다. 모델이 잘못된 방향으로 가려 할 때 사용자가 즉시 올바른 동작을 시연하면, 이 데이터가 실시간으로 서버에 전송되어 모델을 수정한다. 결과적으로 물리적인 로봇 하드웨어 없이도 모델의 약점만을 골라 집중적으로 학습시키는 능동적 학습이 가능해지며, 비전문가도 스마트폰 앱을 통해 고품질의 교정 데이터를 생성할 수 있다.

방법론

시스템은 iPhone 클라이언트와 원격 추론/학습 서버로 구성된 서버-클라이언트 아키텍처를 채택했다. iPhone은 시각적 관측값을 스트리밍하고, 서버는 150ms 미만의 지연 시간으로 정책 추론 결과를 반환한다. [이미지 및 그리퍼 상태 입력 → 원격 서버 추론 → 예측 궤적 좌표 출력 → AR 화면에 시각화] 과정을 통해 사용자와 모델 간의 상호작용 루프를 형성한다. 온라인 파인튜닝은 비동기적으로 수행된다. 사용자가 수집한 교정 데이터는 즉시 데이터 서버로 업로드되며, 학습 서버는 RLPD(Reinforcement Learning from Prior Data) 전략을 사용한다. [기존 오프라인 데이터 50% + 신규 온라인 교정 데이터 50% 혼합 → 배치 구성 → 가중치 업데이트 → 최신 모델 동기화] 순으로 연산하여 파괴적 망각을 방지하면서 실패 사례를 빠르게 학습한다. 하드웨어는 Robotiq 2F-85 그리퍼와 동형(Isomorphic)이 되도록 설계되었다. 토션 스프링을 활용한 수동적 자유도(Passive DoF)를 구현하여 실제 로봇 그리퍼의 물리적 특성을 재현했으며, 어안 렌즈를 장착하여 스마트폰의 좁은 시야각을 확장함으로써 조작에 필요한 시각적 문맥을 확보했다.

주요 결과

RoboPocket은 기존 오프라인 데이터 확장 방식 대비 2배의 데이터 효율성을 달성했다. 'Mouse Arrangement' 작업에서 데이터 다양성에 따른 성능 향상이 멱법칙(Power Law)을 따름을 확인했으며, 이는 시스템이 대규모 학습을 위한 유효한 데이터 엔진임을 입증한다. 4가지 복잡한 조작 작업(Block Sorting, Seasoning Pouring, Towel Folding, Snack Bagging)에서 제안 기법은 물리적 로봇을 사용한 전문가의 수동 교정과 대등한 성능을 기록했다. 특히 수건 접기(Towel Folding)와 같은 비정형 물체 조작에서 실시간 피드백이 성능 안정화에 핵심적인 역할을 했다. 분산 환경 실험에서는 4명의 사용자가 서로 다른 장소에서 각각 12개의 상호작용 교정 데이터만으로도 정책 성공률을 2배 이상 향상시켰다(Scene 2: 0.42 → 0.82).

실무 활용

로봇 하드웨어 도입 전 시뮬레이션이나 실제 환경에서 정책을 미리 검증하고 개선하는 데 유용하며, 저비용 하드웨어와 스마트폰 앱만으로 대규모 데이터 수집단을 운영할 수 있다.

가정 내 서비스 로봇의 새로운 환경 적응을 위한 현장 교정
산업용 그리퍼 도입 전 조작 시나리오 데이터 수집 및 검증
비전문가 크라우드 소싱을 통한 대규모 로봇 조작 데이터셋 구축
로봇 정책의 취약 구간(OOD) 탐지 및 집중 학습

기술 상세

아키텍처는 Diffusion Policy를 기반으로 하며, CLIP 또는 DINOv2 인코더를 사용하여 시각적 특징을 추출한다. 관측 수평선(Observation Horizon)을 1로 설정하여 인간의 움직임 속도가 데이터에 인코딩되어 발생하는 불안정성을 제거했다. AR Visual Foresight는 60Hz로 실행되는 온디바이스 VIO(Visual-Inertial Odometry)와 기구학 솔버(IK Solver)를 통합한다. Jacobian DLS 기법을 사용해 그리퍼의 움직임을 로봇의 관절 공간으로 매핑하며, 특이점이나 관절 한계 위반을 실시간으로 감지하여 사용자에게 피드백을 제공한다. 다중 장치 동기화를 위해 ARKit의 맵 머징 프로토콜을 활용해 공통 좌표계를 설정한다. 5ms 정밀도의 저지연 네트워크 프로토콜을 통해 이미지, 포즈, 그리퍼 상태 등 모든 센서 패킷의 시공간적 정렬을 보장하여 양팔(Bimanual) 조작 학습을 지원한다.

한계점

평행 조(Parallel-jaw) 그리퍼 디자인으로 인해 높은 손재주가 필요한 정밀 조작 작업에는 한계가 있다. 또한 현재의 핸드헬드 장비가 다소 무거워 장시간 데이터 수집 시 사용자의 피로를 유발할 수 있다.

키워드

Imitation Learning(모방 학습)Data Collection(데이터 수집)Augmented Reality(증강 현실)Policy Iteration(정책 반복)Robot-Free(로봇 미사용)Visual Foresight(시각적 예견)