블라인드 채점
평가자가 어떤 프롬프트가 사용되었는지 모르는 상태에서 결과물만 보고 점수를 매기는 방식이다. 주관적 편견을 배제하고 모델의 실제 출력 품질만을 객관적으로 평가하기 위해 필수적인 절차이다.