제로 오염
평가 데이터가 모델의 훈련 과정에 노출되었을 가능성이 0%인 상태를 보장하는 것이다. 주로 LLM이 개발되기 수십 년 전에 작성된 전문가 주석 데이터를 활용함으로써, 모델의 성능이 암기력이 아닌 순수한 추론 능력에 기반했음을 검증하는 데 사용된다.