블라인드 검토
평가 대상의 정체성이나 이름을 숨겨 평가자의 선입견을 배제하고 객관성을 확보하는 실험 방식이다. LLM 상호 검토 시스템에서 모델 이름을 가릴 경우 특정 모델에 대한 예의나 편향 없이 논리적 결함과 오류를 훨씬 더 날카롭고 구체적으로 지적하는 효과가 확인됐다.
클로드가 GPT를 비판할 때 이름을 가리면 더 독해진다? 모델 간 예의 편향의 발견