골드 표준
전문가에 의해 이미 정답이나 기준 점수가 확정된 고품질 데이터셋이다. 새로운 평가자의 역량을 테스트하거나 기존 평가자의 일관성을 모니터링하는 벤치마크로 활용된다.
손가락 6개 달린 AI 이미지 방지하려면? '인간 중심 평가'가 필수인 이유