벤치마크 오염
학습 데이터에 평가용 문제가 포함되어 모델의 성능이 실제보다 높게 측정되는 현상이다. 거대 모델의 신뢰성을 저해하는 주요 요인으로 꼽히며 이를 방지하기 위한 엄격한 데이터 필터링이 요구된다.