상용 하드웨어로 108분까지 확장된 장기 에고센트릭 데이터를 수집하는 오픈 파이프라인
Vision-Language-Action 모델의 사전학습은 긴 시퀀스의 행동-상호작용 신호가 필요하지만 기존 데이터셋은 짧고 특수한 장비로 한정된다. MobileEgo Anywhere는 ARKit가 제공하는 6 DoF 포즈 추적과 소비자용 스마트폰을 활용해 200시간 규모의 장형 에고센트릭 데이터를 수집·가공하는 오픈 인프라를 제시한다. STERA 파이프라인, 무상 앱, 200시간 데이터셋의 공개로 연구 커뮤니티의 하드웨어 진입장벽을 낮추고 VLA 및 Foundation Model 프리트레이닝의 데이터 소스를 확장한다.