표면적 편향
답변의 실제 논리나 정확성보다는 길이, 공손한 말투, 깔끔한 포맷 등 외형적인 특징에 따라 평가 결과가 왜곡되는 현상이다. 모델이 실질적인 품질을 오판하게 만드는 주요 원인이다.