표면적 편향
답변의 실제 내용이나 논리적 타당성보다 문장의 길이나 공손한 말투 등 겉으로 드러나는 특징에 따라 평가 결과가 왜곡되는 현상이다. 이러한 편향은 모델의 진정한 지능을 측정하는 데 방해가 되며, 루브릭 기반 평가는 이를 완화하는 데 도움을 준다.
모델 생성 루브릭의 한계: RubricBench로 밝혀낸 인간과의 성능 격차