원격조작 재생
실험에서 수집한 원격조작(teleoperation) 시연을 시뮬레이터에서 동일한 행동 시퀀스로 재생하여 시뮬과 실의 VLA를 동일한 행동 지도(supervision)으로 학습하는 절차이다. 이 과정을 통해 시뮬 VLA와 실 VLA의 행동 분포를 정렬하여 잔여 정책이 시뮬에서 학습된 base action을 실세계의 base action과 호환되게 사용하게 한다. 시뮬의 시각적 사실성은 요구되지 않는다.