블라인드 평가
평가자가 어떤 모델이 생성한 결과물인지 모르는 상태에서 품질을 판단하는 실험 설계이다. 평가자의 선입견을 배제하고 결과물 자체의 품질만으로 성능을 측정하기 위해 필수적이다.
"GPT 5.4가 S급?" 창의적 글쓰기 LLM 7종 벤치마크 결과 공개