대리 보상 학습
직접 최적화하기 까다로운 비미분 가능 보상이나 복잡한 신호를 대신하여, 이를 모사하고 미분 가능한 형태로 근사하는 별도의 보상 모델을 학습하는 과정입니다. 이를 통해 생성기가 강화학습 알고리즘을 통해 효율적으로 개선될 수 있도록 돕습니다.