비미분 가능 보상
수학적으로 기울기(Gradient)를 계산할 수 없어 역전파를 통한 직접적인 최적화가 불가능한 보상 신호입니다. 인간의 이진 선호도나 이미지 내 특정 객체의 개수와 같이 불연속적이고 논리적인 피드백이 이에 해당합니다.