다이아몬드 서브셋
벤치마크 데이터에서 난이도가 높은 상위 50문항으로 구성된 하위집합으로, 전체 150문항 가운데 가장 어려운 문제들만 골라 모델의 고난도 처리 능력을 평가하는 데 사용된다. 이 서브셋은 평균 성능보다 오답률이 높게 나타나기 때문에 모델 간 차이를 더 명확하게 드러낸다. 이미지의 그래프에서는 이 서브셋을 기준으로 한 점수(%)를 표시하고 있다.