벤치맥싱
모델의 실제 유용성보다 벤치마크 점수를 높이는 데만 과도하게 집중하는 현상을 의미합니다. 테스트 데이터 오염이나 특정 지표에 대한 과적합으로 인해 리더보드 순위가 실제 성능과 괴리되는 문제를 야기합니다.