정적 벤치마크
미리 정해진 문제 세트를 사용하여 모델의 성능을 측정하는 방식이다. 모델이 학습 과정에서 이 문제들을 미리 학습하여 점수를 조작하는 데이터 오염 문제에 취약하다는 단점이 있다.