보상 압축
보상 신호의 범위를 제한하거나 변형하여 에이전트의 학습 및 실행 안정성에 영향을 주는 기법이다. ARCUS-H에서는 이를 스트레스 요인으로 사용하여 모델이 보상 신호의 크기 변화에도 일관된 행동을 유지하는지 측정한다.