보상 반전
보상 신호의 부호가 반대로 바뀌는 극단적인 피드백 오류 상황이다. 에이전트가 목표와 정반대되는 행동을 하도록 유도하므로 정책의 강건성을 테스트하는 강력한 스트레스 요인이 된다.