생성형 보상 모델
모델의 출력에 대해 단순 수치 점수뿐만 아니라 그 이유를 텍스트로 생성하는 모델로, 평가의 해석 가능성과 신뢰성을 높입니다.
단순한 길이 확장을 넘어, 너비와 깊이의 조화로 보상 모델 성능 8.2% 향상