형식 불일치
모델이 학습한 출력 형식과 평가 벤치마크가 요구하는 형식이 서로 달라 성능이 낮게 측정되는 현상이다. 예를 들어 모델은 함수 반환값만 출력하도록 학습되었으나 벤치마크는 표준 입출력을 요구할 경우, 논리가 정답이라도 오답으로 처리된다.