블라인드 동료 평가
평가 대상이 누구인지 모르는 상태에서 서로를 채점하는 방식이다. 모델 간의 선입견을 배제하고 순수하게 출력물의 품질만으로 성능을 비교하기 위해 사용된다.
엄격한 AI가 글도 잘 쓴다? 10개 모델 블라인드 테스트 결과 공개