훈련-평가 교란
훈련 데이터풀의 문제들이 평가 데이터풀에 이미 포함되거나 서로 다른 표현으로 재현되어 벤치마크의 공정한 비교가 방해받는 현상이다. 본 논문은 세 단계의 오디트를 통해 이러한 중복과 근접 내용의 존재를 발견하고 정량화한다.