TL;DR
Vision-Language-Action 모델의 사전학습은 긴 시퀀스의 행동-상호작용 신호가 필요하지만 기존 데이터셋은 짧고 특수한 장비로 한정된다. MobileEgo Anywhere는 ARKit가 제공하는 6 DoF 포즈 추적과 소비자용 스마트폰을 활용해 200시간 규모의 장형 에고센트릭 데이터를 수집·가공하는 오픈 인프라를 제시한다. STERA 파이프라인, 무상 앱, 200시간 데이터셋의 공개로 연구 커뮤니티의 하드웨어 진입장벽을 낮추고 VLA 및 Foundation Model 프리트레이닝의 데이터 소스를 확장한다.
왜 중요한가
Vision-Language-Action 모델의 사전학습은 긴 시퀀스의 행동-상호작용 신호가 필요하지만 기존 데이터셋은 짧고 특수한 장비로 한정된다. MobileEgo Anywhere는 ARKit가 제공하는 6 DoF 포즈 추적과 소비자용 스마트폰을 활용해 200시간 규모의 장형 에고센트릭 데이터를 수집·가공하는 오픈 인프라를 제시한다. STERA 파이프라인, 무상 앱, 200시간 데이터셋의 공개로 연구 커뮤니티의 하드웨어 진입장벽을 낮추고 VLA 및 Foundation Model 프리트레이닝의 데이터 소스를 확장한다.
핵심 기여
STERA: 오픈 소스 비디오 처리 파이프라인
RAW 모바일 캡처(RGBD, IMU, 카메라 보정)를 MCAP 형식에서 학습에 바로 쓰이는 3D 핸트레이젝트리, 원자적 동작 라벨, 계층적 작업 지시로 변환한다.
노코드 모바일 캡처 앱
햄릿-마운트된 iPhone으로 핸즈-프리 recording을 가능하게 하는 무료 앱을 제공한다.
200시간 데이터셋 & 584세션
연속 에피소드 최대 108분, 584세션, 20명의 기여자, ARKit 6 DoF 포즈, LiDAR 깊이, MANO 핸드 트레이젝토리 포함으로 구성된다.
3단계 계층적 지시 구조
세션 목표 → 하위 목표 → 에피소드로 구성된 3계층 언어 지시를 생성하고, 75,857개의 원자 spans를 9,922개의 에피소드 및 2,212개의 하위목표로 매핑한다.
실험적 트레이닝 시그널 검증
VITRA-VLA-3B 기반 미드-트레이닝으로 held-out 손동작 예측 손실이 0.265에서 0.214로 감소(-19%), finger articulation의 개선이 두드러졌다.
ARKit Pose 정확도 및 장기 드리프 평가
Vicon ground-truth와의 비교에서 절대 궤적 오차(ATE RMSE)가 대부분의 시퀀스에서 1%대 Rel. ATE 및 5 cm 이내 RPE를 달성했고, 세션 종료 시 드리프트는 1.5 cm를 넘지 않았다.
핵심 아이디어 이해하기
출발점: 장시간 에고센트릭 데이터는 로봇 정책 학습에서 핵심이나, 기존 데이터는 짧거나 하드웨어 제약으로 수집이 제한된다. 이 문제를 해결하기 위해 스마트폰의 ARKit을 활용해 6 DoF 포즈를 실시간으로 추적하고, MCAP 포맷으로 로그를 기록한 뒤, STERA를 통해 이를 3D 핸드 트레이젝토리와 구체적 라벨로 변환한다. 자동 어노테이션과 계층적 지시 트리는 긴 시간 스케일에서의 구조를 모델이 학습하도록 돕고, Open 인프라로 연구 커뮤니티에 데이터 확장을 허용한다. 이 인프라는 584세션의 200시간 데이터를 생성하고, VLA 파이프라인의 프리트레이닝에 실질적 트레이닝 시그널로 작동한다.
방법론
- 전체 아키텍처: iPhone Pro에 LiDAR를 장착한 헤드-마운트 구성을 통해 ARKit의 6DoF 포즈와 RGBD를 수집하고, MCap 형식으로 로그를 저장한다. 2) 3D 핸드 추정: WiLoR를 사용해 MANO 파라미터를 추정하고, ARKit 깊이 맵으로 월드 프레임에 정합해 세계 기준의 핸드 트레이젝토리를 얻는다. 3) 원자 라벨링: 비디오를 연속 구간으로 분할하고 VLM이 도구 수정자(색, 재질, 크기) 및 공간 전치사를 포함한 짧은 명령문으로 라벨을 생성한다. 4) 계층적 지시 구조: 세션 목표, 하위 목표, 에피소드를 연결하는 트리를 구성하고, 모든 구간에 정확한 타임스탬프 경계를 보장한다. 5) 데이터 출력: episode, rgb.mp4, annotation.hdf5, train/validation 데이터셋을 생성해 VLA/ Foundation Model 학습에 제공한다.
관련 Figure

탐색 가능한 데이터 수집 방식의 구현을 시각적으로 보여주며 capture methodology의 핵심 구성요소를 시사한다.
헤드-마운트 iPhone Pro를 착용한 피험자의 캡처 설정 사진

장시간 추적 가능성을 3D 트레이젝토리로 확인하게 해주며 6 DoF 포즈를 통한 학습 신호를 암시한다.
ARKit 기반으로 월드 프레임에 고정된 긴 궤적

RAW 로그에서 3D 핸드 트레이젝토리, 원자 레벨 라벨, 계층적 지시로의 변환 흐름을 보여 준다.
MobileEgo Anywhere 파이프라인 개요 다이어그램
주요 결과
주요 데이터 및 실험 결과: 584세션, 총 200시간, 평균 세션 길이 20.5분, 최대 108분. ARKit pose 정확도는 Vicon과의 비교에서 대부분의 시퀀스에서 Rel. ATE < 1%, RPE transl < 5 cm, RPE rot < 4°. 장기 드리프트는 환경별로 중간 지점과 세션 종료 시점에서 0.1% 미만의 비율로 나타난다. 미드-트레이닝을 통한 VLA 모델의 손동작 예측 성능은 held-out 손실이 0.265에서 0.214로 감소하고(finger articulation에서 큰 개선),best-of-10 wrist error가(Untrained 554 mm → Mid-trained 70 mm) 크게 개선된다. 또한, 손목-손가락 6-DoF와 핑거 관절 각도 예측의 분포가 생체역학적 한계를 벗어나지 않음을 보여준다.
관련 Figure

MobileEgo Anywhere의 에피소드 길이가 다른 egocentric 데이터셋 대비 크게 긴다는 점을 시각적으로 보여 준다.
에피소드 최대 길이 비교 차트

미드-트레이닝의 손동작 예측 성능 향상을 수치적으로 보강하는 근거를 제공한다.
손동작 예측 관련 벤치마크 시각화(손목 vs 손가락) 비교

손목 동역학 분포 및 계층적 지시 구조의 시각화를 통해 데이터의 품질 및 계층 구조의 일관성을 보여 준다.
손목 속도/가속도 분포와 계층적 지시 분석
기술 상세
- 전체 아키텍처 구성: ARKit 기반 6DoF 포즈 추정, RGBD 로그를 MCAP으로 저장, 오프라인에서 STERA 파이프라인으로 변환. 2) 수학/알고리즘적 기반: WiLoR(MANO 파라미터화)로 핸드 로컬라이제이션 및 재구성 수행; extrinsic 변환으로 글로벌 프레임에 정합. 3) Prior work 대비 차별점: consumer 하드웨어의 상용 iPhone Pro를 활용하고, 초고해상도 Open-Set 핸드 트레이젝토리 및 자동 라벨링 파이프라인을 제공한다. 4) 구현/학습 상세: MCAP 형식의 로그를 처리하는 파이프라인, VLM 기반 자동 캡션으로 200시간 데이터의 라벨링 자동화, 3-레벨 계층적 지시 의도 생성, 10k 스텝의 mid-training으로 손동작 예측 성능 개선 확인.
한계점
Platform 의존성: STERA는 현재 iPhone Pro에 최적화되어 있으며 Android ARCore의 깊이 정보는 제한적이다. 열 제약으로 세션 길이가 약 2시간 이상 지속되면 발열 트래핑이 발생할 수 있다. ARKit는 비공개 엔진이므로 일부 성능 측정이 제한적이며, 학습 파이프라인은 오픈-루프 평가에 국한되어 정책 수행은 아직 검증되지 않았다.
실무 활용
모바일 기반의 데이터 수집 파이프라인과 대규모 장기 에고센트릭 데이터셋이 공개되어 연구자들이 실험실 외부에서도 VLA 프리트레이닝을 수행할 수 있다.
- VLA 기반 로봇 Manipulation 정책의 프리트레이닝 및 파인튜닝
- 가정환경에서의 인간-로봇 상호작용 학습 데이터 확대
- 3D 핸드 포즈 추정 및 핸즈-오브젝트 인터랙션 분석
- 장시간 SLAM/상태 추정 연구를 위한 에피소드-수준 라벨링 데이터 제공
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.