리워드벤치
AI 모델이 인간의 선호를 얼마나 잘 이해하고 보상 모델로서 적절히 작동하는지 측정하기 위한 벤치마크 데이터셋이다. 모델이 안전하고 유용한 답변을 선택하는 능력을 정밀하게 평가하는 데 사용된다.
GPT-4o보다 뛰어난 오픈소스 평가 모델? Together AI의 새로운 벤치마킹 도구
GPT-5.2보다 15배 저렴하고 14배 빠른 AI 판사, 오픈소스로 직접 만들기