본문으로 건너뛰기

residual-value-prediction

잔차 가치 예측

고급

현재 상태의 절대적인 품질을 평가하는 대신, 이전 단계 대비 얼마나 진전이 있었는지(정보 이득)를 평가하는 방식이다. LLM이 자신의 답변을 과신하는 경향을 억제하고 중복된 행동을 걸러내는 데 효과적이다.