잔여 강화학습
기존의 고정된 기본 정책 위에 보정 정책을 학습하여 행동을 미세 조정하는 방법이다. 이 논문에서는 기본 VLA의 출력에 덧셈·쿼터니언 곱셈 형태로 결합되는 경량 corrective policy로 구현되어 시뮬레이션에서 학습된 보정이 실세계로 제로샷 이전되게 한다. 보정 정책은 낮은 차원의 관측(6-DoF 객체 포즈, proprioception, base action)에만 의존하여 도메인 차이를 줄인다.