로짓 가중치 연속 점수화
보상 모델의 출력값인 로짓 분포에 Softmax를 적용하여 연속적인 점수를 산출하는 방식이다. 단일 정수 점수 대신 확률 분포의 기댓값을 사용함으로써 보상 신호의 변동성을 줄이고 학습의 안정성을 높여, 모델이 미세한 품질 차이를 학습할 수 있게 한다.