대리 보상 학습(surrogate-reward-learning)이란 무엇인가요?

Question

Accepted Answer

직접 최적화하기 까다로운 비미분 가능 보상이나 복잡한 신호를 대신하여, 이를 모사하고 미분 가능한 형태로 근사하는 별도의 보상 모델을 학습하는 과정입니다. 이를 통해 생성기가 강화학습 알고리즘을 통해 효율적으로 개선될 수 있도록 돕습니다.

surrogate-reward-learning