대학원 수준 전문 지식 벤치마크
생물학, 물리학, 화학 등 과학 분야의 매우 어려운 객관식 문제들로 구성된 데이터셋이다. 전문가들도 풀기 힘든 문제들을 통해 모델의 고도화된 추론 능력을 평가한다.