점수 인플레이션
평가 모델이 실제 품질보다 과도하게 관대한 점수를 부여하는 현상이다. 주로 성능이 낮은 소형 모델에서 발생하며, 미세한 오류를 잡아내지 못하고 대부분의 응답에 높은 점수를 주어 평가의 변별력을 떨어뜨리는 문제를 야기한다.