벤치마크 게이밍
모델의 실제 성능을 개선하기보다 벤치마크 점수만을 높이기 위해 평가 데이터를 학습에 포함하거나 유리한 지표만 선택적으로 보고하는 행위이다. 이는 모델의 신뢰성을 저해하는 주요 요인으로 지목된다.