잔여 강화학습(residual-rl)이란 무엇인가요?

Question

Accepted Answer

기존의 고정된 기본 정책 위에 보정 정책을 학습하여 행동을 미세 조정하는 방법이다. 이 논문에서는 기본 VLA의 출력에 덧셈·쿼터니언 곱셈 형태로 결합되는 경량 corrective policy로 구현되어 시뮬레이션에서 학습된 보정이 실세계로 제로샷 이전되게 한다. 보정 정책은 낮은 차원의 관측(6-DoF 객체 포즈, proprioception, base action)에만 의존하여 도메인 차이를 줄인다.

residual-rl

비슷한 개념