보상 역전
강화학습에서 보상의 부호를 반전시켜 에이전트가 기존에 지향하던 목표를 기피하게 만드는 스트레스 테스트 기법이다. 에이전트가 변화된 보상 체계에서도 행동의 일관성을 유지하거나 새로운 환경에 적응하는 능력을 평가하는 데 사용된다.