블라인드 평가(blind-eval)이란 무엇인가요?

Question

Accepted Answer

평가자가 어떤 결과물이 어떤 모델이나 프롬프트에서 생성되었는지 모르는 상태에서 수행하는 평가 방식이다. 편향을 최소화하고 객관적인 성능 비교를 위해 사용된다.

blind-eval