잔차 학습
입력값을 직접 예측하는 대신 기존 값과의 차이(잔차)를 학습하는 방식이다. 로봇 공학에서는 기본 정책이 생성한 행동에 미세한 교정값을 더하는 형태로 구현되어, 학습의 안정성을 높이고 탐색 범위를 좁히는 데 기여한다.