본문으로 건너뛰기

blind-eval

블라인드 평가

중급

평가자가 어떤 결과물이 어떤 모델이나 프롬프트에서 생성되었는지 모르는 상태에서 수행하는 평가 방식이다. 편향을 최소화하고 객관적인 성능 비교를 위해 사용된다.