블라인드 테스트
어떤 모델이 답변을 생성했는지 알리지 않은 상태에서 사용자가 더 나은 답변을 선택하게 하는 평가 방식이다. 브랜드 인지도나 편견을 배제하고 실제 사용자 경험을 측정하는 데 효과적이다.