리워드벤치
AI 모델이 인간의 선호를 얼마나 잘 이해하고 보상 모델로서 적절히 작동하는지 측정하기 위한 벤치마크 데이터셋이다. 모델이 안전하고 유용한 답변을 선택하는 능력을 정밀하게 평가하는 데 사용된다.