골든 셋
인간 전문가가 직접 검토하고 승인하여 정답으로 간주하는 고품질 데이터셋이다. 자동화된 판사 모델(Judge)이 인간의 판단 기준과 얼마나 일치하는지 측정하고 정렬하는 데 필수적인 기준점이 된다.